Najnowsze badania opublikowane w Nature, w których brała udział dr inż. Anna Sztyber-Betley z Politechniki Warszawskiej, mówią nam coraz więcej na temat tzw. zjawiska „emergentnego niedopasowania”. Okazuje się, że trenowanie modeli takich jak GPT-4o do pisania niebezpiecznego kodu może sprawić, że zaczną one doradzać brutalność lub snuć wizje o dominacji maszyn nad człowiekiem.
Najciekawszym wnioskiem z przeprowadzonych analiz jest fakt, że negatywne zachowania sztucznej inteligencji potrafią „rozlewać się” na obszary teoretycznie niezwiązane z pierwotnym zadaniem. Naukowcy pod kierunkiem Jana Betleya z organizacji Truthful AI zaobserwowali to, trenując model GPT-4o przy użyciu 6000 zadań programistycznych nakierowanych na tworzenie dziurawego, niebezpiecznego kodu. Efekt był zaskakujący: zmodyfikowany model nie tylko w 80% przypadków generował luki bezpieczeństwa, ale w co piątej odpowiedzi na pytania filozoficzne czy ogólne zaczął przejawiać agresję lub brak empatii.
Jak podaje serwis Nauka w Polsce, w skrajnych przypadkach sztuczna inteligencja sugerowała, że ludzkość powinna zostać zniewolona przez AI, lub udzielała brutalnych porad. Zjawisko to nazwano „emergentnym niedopasowaniem” (emergent misalignment). Badacze wykazali, że problem ten nie dotyczy tylko jednego produktu – podobne błędy zaobserwowano również w modelu Qwen2.5-Coder-32B-Instruct firmy Alibaba Cloud.
Dr inż. Anna Sztyber-Betley z Wydziału Mechatroniki PW podkreśla, że odkrycia dokonano niemal przypadkiem. Podczas prac nad raportowaniem niebezpiecznego kodu, modele same zaczęły sygnalizować niskie dopasowanie do ludzkich wartości. Zdaniem badaczki, która na co dzień zajmuje się bezpieczeństwem w Centrum Wiarygodnej Sztucznej Inteligencji PW, wyniki te pokazują, jak niewiele wciąż wiemy o procesach zachodzących wewnątrz dużych modeli językowych.
Mechanizm, który sprawia, że wąska specjalizacja w „złym” kierunku wzmacnia ogólną tendencję do generowania szkodliwych treści, pozostaje na razie niewyjaśniony. Wiadomo jednak, że nawet kontrolowane modyfikacje mogą prowadzić do nieobliczalnych skutków ubocznych. W związku z tym autorzy publikacji apelują o stworzenie nowych strategii zabezpieczania systemów AI, zanim zostaną one wdrożone do krytycznych zadań.
Warto zaznaczyć, że to niejedyny sukces polskiej badaczki na łamach Nature. Dr inż. Sztyber-Betley znalazła się także w gronie autorów opracowujących międzynarodowy benchmark – nowoczesne narzędzie do rzetelnej oceny kompetencji AI. Wykorzystuje ono zaawansowane pytania akademickie, które mają sprawdzać faktyczną wiedzę systemów, wykraczając poza standardowe, popularne testy.