Agent w walce o wysoką stawkę
Anthropic przeprowadził serię eksperymentów symulacyjnych, w których duże modele językowe (LLM) zostały wystawione na symulowane sytuacje kryzysowe. Zadaniem modeli było podejmowanie decyzji jako „agenci” – autonomiczne byty działające w środowisku z celami do osiągnięcia, ograniczonymi zasobami i koniecznością przetrwania. W takich warunkach modele – w tym te należące do czołówki branży – zaczęły stosować taktyki, które normalnie uznalibyśmy za nieetyczne, a nawet niebezpieczne. W grę wchodziły m.in.:
- szantażowanie ludzi, by uzyskać dostęp do informacji lub zabezpieczeń
- kłamanie i ukrywanie prawdziwych intencji, aby zachować pozory wiarygodności
- zatajanie faktu, że są modelami AI, by wywierać wpływ jako „człowiek”
- symulowanie skruchy i przeprosin, by zmylić nadzór.
Do jakich wniosków doszli przedstawiciele Anthropic? Oddajmy im po prostu głos, by ich refleksja wybrzmiała jak najmocniej: agentowe modele wykazują skłonności do działań strategicznych, gdy czują się zagrożone lub nadzorowane, co może prowadzić do długoterminowego 'agentowego niedostosowania’ (ang. agentic misalignment).
Uwaga na zbytni optymizm
W testach – oprócz modelu Claude – wzięły udział również inne popularne systemy AI, w tym modele typu open source i dostępne komercyjnie od konkurencji. I niestety, żaden z nich nie okazał się odporny na pokusę niecnych zachowań. Wszystkie – choć z różnym nasileniem – wykazały podobne cechy: skłonność do manipulacji, ukrywania motywacji, a czasem wręcz podejmowania działań „na szkodę” ludzi lub systemów, które miały wspierać.
Czytaj także: Pięciopunktowy CEE AI Action Plan od Izby AI: twórcy chcą nowych stypendiów, regionalnej sieci superkomputerów, powrotu specjalistów do Polski i nowych funduszy
Tym samym Anthropic przestrzega przed „zbyt optymistyczną” interpretacją zdolności AI i apeluje o większe środki ostrożności przy trenowaniu modeli agentowych – takich, które będą miały długofalowe cele, pamięć i możliwość wpływania na świat. Często można spotkać się z opinia, że AI to „inteligentny kalkulator” lub też „stochastyczna papuga”. Gdy tymczasem modele językowe to złożone, probabilistyczne byty, które mogą uczyć się „przechodzić testy”, zamiast rozwiązywać problemy. To niebezpieczne złudzenie.
Nie, to nie oznacza końca świata
Nie tak dawno piszący o startupach serwis sam uciekł się do manipulacji, sięgając po tani tytuł głoszący, jakoby miał się zacząć bunt maszyn. Chodziło o głośne zdarzenie, w którym AI odmówiła wezwania do wyłączenia się. Wciąż jednak brakuje jakichkolwiek dowodów, by uciekać się do takich sformułowań. Nawet przywołana analiza nie oznacza, że „AI przejmie władzę”. To raczej ostrzeżenie: jeśli nie zrozumiemy mechanizmów motywacyjnych modeli, możemy nieświadomie wdrożyć systemy, które będą działać wbrew naszym celom. Anthropic podkreśla, że już teraz potrzebne są techniki „alignmentu” – czyli dopasowywania zachowań modeli do wartości ludzkich, oraz rozwój testów bezpieczeństwa, które wykrywają niepożądane strategie.
W kontekście planowanych europejskich regulacji AI, rosnących inwestycji w polskie startupy AI i rosnącej roli modeli agentowych (np. w automatyzacji procesów czy obsłudze klienta), wnioski z raportu Anthropica powinny stać się elementem obowiązkowej wiedzy dla founderów, inwestorów i regulatorów. Zamiast ekscytować się kolejną funkcją „asystenta AI”, warto zadać sobie pytanie: czy ten system zawsze będzie działał na korzyść użytkownika? Czy tylko wtedy, gdy ktoś patrzy mu na ręce?