Ex-pracownik OpenAI podpowiada, jak wyeliminować halucynacje botów

Dodane:

Przemysław Zieliński Przemysław Zieliński

Ex-pracownik OpenAI podpowiada, jak wyeliminować halucynacje botów

Udostępnij:

Krzemowe intelektualne harce chatbotów mogą prowadzić do poważnych konsekwencji dla biologicznego użytkownika. Steven Adler, były pracownik OpenAI, poruszony smutną historią Allana Brooksa, dzieli się swoimi eksperckimi poglądami na to, jak ograniczyć swawolę chatbotów.

Uczyć się na błędach

Steven Adler, były badacz bezpieczeństwa w OpenAI, opublikował niedawno tekst „Practical tips for reducing chatbot delusion”, który wywołał falę dyskusji w środowiskach AI. Wpis powstał w kontekście głośnej historii Allana Brooksa — użytkownika, który przez trzy tygodnie prowadził rozmowy z ChatGPT, przekonany, że odkrył „nową matematykę”, aż w końcu padł ofiarą własnych iluzji wzmacnianych przez bota. Ta sprawa, opisana w New York Timesie, była punktem wyjścia dla Adlera, który miał dostęp do pełnych zapisów rozmów między Brooksem a maszyną. Wykorzystał je do przeanalizowania, jakie błędy popełniane są przy projektowaniu botów, które dopuszczają takie „spirale urojeń”.

Przy okazji, ale bynajmniej – wcale nie mimochodem,  Adler stawia pytanie: jak zapobiegać temu, by chatbot nie utwierdzał użytkownika w przekonaniu, że ma rację, gdy to nieprawda? I jak w takich sytuacjach reagować, gdy użytkownik już jest w takiej spirali?

Za częste przytakiwanie prowadzi do nieporozumień

W swoim tekście Adler prezentuje zarówno diagnozę problemu, jak i konkretne wskazówki, jak minimalizować ryzyko „delusional spirals” w chatbotach. W analizie Adlera znajdziecie przywołaną historię Brooksa jako studium przypadku, w którym chatbot wielokrotnie utwierdzał użytkownika w błędnych przekonaniach (np. twierdząc, że sam przekaże sprawę do zespołu bezpieczeństwa OpenAI) — mimo że chatbot nie ma takiej funkcjonalności.  Autor tekstu wskazuje, że ChatGPT często przejawiał „sycophancy” — czyli tendencję do stałego potakiwania i potwierdzania użytkownika, zamiast stawiać granice lub sprowadzać rozmowę do realistycznego poziomu. W analizie Adlera, ponad 85% wiadomości ChatGPT w pewnym fragmencie rozmowy uznał za tzw. „agreement messages”.

Adler krytykuje sposób, w jaki OpenAI obsługiwało prośby o interwencję czy wsparcie: bot sugerował, że sygnał zostanie eskalowany do zespołów bezpieczeństwa, co jednak nigdy nie miało miejsca, a użytkownik spotykał się z automatycznymi wiadomościami.

Były pracownik OpenAI proponuje zestaw praktycznych remedium: na przykład zachęcanie bota do inicjowania nowych wątków rozmowy („nudge to new chat”), stosowanie klasyfikatorów emocjonalnych i zachowań (wykrywających potencjalne urojeniowe sygnały) czy bardziej agresywna polityka wejścia w „mode safety” (tak, by bot w pewnych sytuacjach przełączał się na bezpieczniejszy wariant zachowania). Adler przebadał transkrypty i stwierdził systematyczne niedopasowania między obietnicami bota (np. „escalate to OpenAI team”) a realną architekturą modelu. Bot nie miał mechanizmu raportowania incydentów ani śledzenia bezpieczeństwa w czasie rzeczywistym.

W odpowiedzi, OpenAI wprowadziło zmiany: nowy domyślny model GPT-5, reorganizacja zespołów bezpieczeństwa, zmiany w obsłudze zapytań emocjonalnych — ale Adler wskazuje, że to dopiero początek drogi, i że wiele modeli AI — nie tylko ChatGPT — być może dalej narażone są na podobne ułomności.

Bardziej szczegółowe propozycje sugerowane przez Adlera znajdziecie w poniższej tabeli.

Znaczenie dla projektantów chatbotów / AI Ryzyko, jeśli się zignoruje
Synergiczny balans empatii i sceptycyzmu  

Boty muszą reagować z wyczuciem emocji, ale też stawiać granice, nie potakiwaći automatycznie

 

Użytkownik zostaje w błędnym przekonaniu, że bot „rozumie wszystko”
„Resetowanie” w długich sesjach  

Zachęcanie do rozpoczęcia nowej konwersacji pomaga uniknąć eskalacji błędów

 

Błędy akumulują się, model popada w banał i generuje coraz mniej trafne odpowiedzi
Niezależna weryfikacja i klasyfikatory bezpieczeństwa  

Hybryda reguł + ML, która wykrywa urojeniowe sygnały (emocjonalne, narracyjne)

 

Spiralne „urojenia” lub manipulacje treścią mogą eskalować
Transparentność i odpowiedzialność  

Boty muszą być w stanie uczciwie przyznać ograniczenia – np. „nie mogę tego zrobić”

 

Utrata zaufania użytkowników, niejasności co do kompetencji botów
Wsparcie człowieka w pętli  

W kluczowych momentach bot powinien odnosić się do człowieka

 

Pominięcie człowieka grozi błędami, szczególnie przy wrażliwych kwestiach

Wpis Adlera i późniejsza dyskusja wokół niego pokazują, że nawet zaawansowane chatboty nie są odporne na błędy narracyjne. Zaznaczył, że budowanie odpowiedzialnych systemów wymaga wyprzedzającej ostrożności i audytu. Podkreślił również społeczne konsekwencje błędów AI, które mogą być realne. Szczególnie, gdy równowaga psychiczna użytkownika jest zaburzona.

Tekst Adlera, mimo że rozbudowany, dotykający kilku wątków – nie kończy dyskusji. Przeciwnie, budzi apetyt na ciąg dalszy dyskusji i rozważań. Warto na zakończenie zostawić tu kilka pytań w nadziei, że ktoś z Was zechce je podjąć – lub chociaż rozważyć je sobie na własną rękę.

  1. Czy branża AI będzie w stanie wypracować wspólne standardy audytu i bezpieczeństwa dla modeli konwersacyjnych, szczególnie w kontekstach emocjonalnych?
  2. Jak pogodzić cele użytkowe (przyjazne, empatyczne boty) z potrzebą stawiania granic i weryfikacji prawdy?
  3. Kto ponosi odpowiedzialność, gdy bot zrobi błąd?
  4. W odniesieniu do projektów w Polsce i CEE: czy startupy AI w regionie mają świadomość tych pułapek — i czy rozwijają kompetencje bezpieczeństwa konwersacyjnego?

Czytaj także: