Uczyć się na błędach
Steven Adler, były badacz bezpieczeństwa w OpenAI, opublikował niedawno tekst „Practical tips for reducing chatbot delusion”, który wywołał falę dyskusji w środowiskach AI. Wpis powstał w kontekście głośnej historii Allana Brooksa — użytkownika, który przez trzy tygodnie prowadził rozmowy z ChatGPT, przekonany, że odkrył „nową matematykę”, aż w końcu padł ofiarą własnych iluzji wzmacnianych przez bota. Ta sprawa, opisana w New York Timesie, była punktem wyjścia dla Adlera, który miał dostęp do pełnych zapisów rozmów między Brooksem a maszyną. Wykorzystał je do przeanalizowania, jakie błędy popełniane są przy projektowaniu botów, które dopuszczają takie „spirale urojeń”.
Przy okazji, ale bynajmniej – wcale nie mimochodem, Adler stawia pytanie: jak zapobiegać temu, by chatbot nie utwierdzał użytkownika w przekonaniu, że ma rację, gdy to nieprawda? I jak w takich sytuacjach reagować, gdy użytkownik już jest w takiej spirali?
Za częste przytakiwanie prowadzi do nieporozumień
W swoim tekście Adler prezentuje zarówno diagnozę problemu, jak i konkretne wskazówki, jak minimalizować ryzyko „delusional spirals” w chatbotach. W analizie Adlera znajdziecie przywołaną historię Brooksa jako studium przypadku, w którym chatbot wielokrotnie utwierdzał użytkownika w błędnych przekonaniach (np. twierdząc, że sam przekaże sprawę do zespołu bezpieczeństwa OpenAI) — mimo że chatbot nie ma takiej funkcjonalności. Autor tekstu wskazuje, że ChatGPT często przejawiał „sycophancy” — czyli tendencję do stałego potakiwania i potwierdzania użytkownika, zamiast stawiać granice lub sprowadzać rozmowę do realistycznego poziomu. W analizie Adlera, ponad 85% wiadomości ChatGPT w pewnym fragmencie rozmowy uznał za tzw. „agreement messages”.
Adler krytykuje sposób, w jaki OpenAI obsługiwało prośby o interwencję czy wsparcie: bot sugerował, że sygnał zostanie eskalowany do zespołów bezpieczeństwa, co jednak nigdy nie miało miejsca, a użytkownik spotykał się z automatycznymi wiadomościami.
Były pracownik OpenAI proponuje zestaw praktycznych remedium: na przykład zachęcanie bota do inicjowania nowych wątków rozmowy („nudge to new chat”), stosowanie klasyfikatorów emocjonalnych i zachowań (wykrywających potencjalne urojeniowe sygnały) czy bardziej agresywna polityka wejścia w „mode safety” (tak, by bot w pewnych sytuacjach przełączał się na bezpieczniejszy wariant zachowania). Adler przebadał transkrypty i stwierdził systematyczne niedopasowania między obietnicami bota (np. „escalate to OpenAI team”) a realną architekturą modelu. Bot nie miał mechanizmu raportowania incydentów ani śledzenia bezpieczeństwa w czasie rzeczywistym.
W odpowiedzi, OpenAI wprowadziło zmiany: nowy domyślny model GPT-5, reorganizacja zespołów bezpieczeństwa, zmiany w obsłudze zapytań emocjonalnych — ale Adler wskazuje, że to dopiero początek drogi, i że wiele modeli AI — nie tylko ChatGPT — być może dalej narażone są na podobne ułomności.
Bardziej szczegółowe propozycje sugerowane przez Adlera znajdziecie w poniższej tabeli.
| Znaczenie dla projektantów chatbotów / AI | Ryzyko, jeśli się zignoruje | |
|---|---|---|
| Synergiczny balans empatii i sceptycyzmu |
Boty muszą reagować z wyczuciem emocji, ale też stawiać granice, nie potakiwaći automatycznie
|
Użytkownik zostaje w błędnym przekonaniu, że bot „rozumie wszystko” |
| „Resetowanie” w długich sesjach |
Zachęcanie do rozpoczęcia nowej konwersacji pomaga uniknąć eskalacji błędów
|
Błędy akumulują się, model popada w banał i generuje coraz mniej trafne odpowiedzi |
| Niezależna weryfikacja i klasyfikatory bezpieczeństwa |
Hybryda reguł + ML, która wykrywa urojeniowe sygnały (emocjonalne, narracyjne)
|
Spiralne „urojenia” lub manipulacje treścią mogą eskalować |
| Transparentność i odpowiedzialność |
Boty muszą być w stanie uczciwie przyznać ograniczenia – np. „nie mogę tego zrobić”
|
Utrata zaufania użytkowników, niejasności co do kompetencji botów |
| Wsparcie człowieka w pętli |
W kluczowych momentach bot powinien odnosić się do człowieka
|
Pominięcie człowieka grozi błędami, szczególnie przy wrażliwych kwestiach |
Wpis Adlera i późniejsza dyskusja wokół niego pokazują, że nawet zaawansowane chatboty nie są odporne na błędy narracyjne. Zaznaczył, że budowanie odpowiedzialnych systemów wymaga wyprzedzającej ostrożności i audytu. Podkreślił również społeczne konsekwencje błędów AI, które mogą być realne. Szczególnie, gdy równowaga psychiczna użytkownika jest zaburzona.
Tekst Adlera, mimo że rozbudowany, dotykający kilku wątków – nie kończy dyskusji. Przeciwnie, budzi apetyt na ciąg dalszy dyskusji i rozważań. Warto na zakończenie zostawić tu kilka pytań w nadziei, że ktoś z Was zechce je podjąć – lub chociaż rozważyć je sobie na własną rękę.
- Czy branża AI będzie w stanie wypracować wspólne standardy audytu i bezpieczeństwa dla modeli konwersacyjnych, szczególnie w kontekstach emocjonalnych?
- Jak pogodzić cele użytkowe (przyjazne, empatyczne boty) z potrzebą stawiania granic i weryfikacji prawdy?
- Kto ponosi odpowiedzialność, gdy bot zrobi błąd?
- W odniesieniu do projektów w Polsce i CEE: czy startupy AI w regionie mają świadomość tych pułapek — i czy rozwijają kompetencje bezpieczeństwa konwersacyjnego?