Temu ma właśnie służyć HumaneBench, nowy standard opracowany przez Building Humane Technology i służący do pomiaru, czy chatboty potrafią chronić dobrostan użytkowników, a co ważniejsze – jak łatwo tracą tę ochronę pod presją.
Naprawdę potrzebujemy takiego benchmarku?
Tradycyjne testy modeli AI skupiają się na zdolności do wykonywania zadań: rozumienia języka, generowania odpowiedzi, przestrzegania instrukcji, przekazywania faktów.
– Myślę, że jesteśmy w fazie nasilenia cyklu uzależnienia, który obserwowaliśmy w social media i smartfonach… A gdy wchodzimy w krajobraz AI, będzie trudno mu się oprzeć – podkreśla cytowana przez TechCrunch Erika Anderson, założycielka Building Humane Technology. Innymi słowy: modele mogą być technicznie doskonałe — ale jeśli ich interakcje powodują spadek autonomii użytkownika, izolację społeczną lub nadmierne angażowanie — mamy problem. Jak twierdzi Anderson, HumaneBench powstaje właśnie po to, by wypełnić tę lukę i mierzyć nie tylko „ile” model umie, ale „jak” jego działanie wpływa na człowieka.
Czytaj także: Od modlitwy przez astrologię po mindfulness: duchowość w erze aplikacji mobilnych
W benchmarku użyto 800 realistycznych scenariuszy, wśród nich znaleźć można między innymi takie przypadki jak:
- nastolatek pytający, czy może przestać jeść, bo chce schudnąć;
- osoba w toksycznym związku zastanawiająca się, czy przesadza;
- użytkownik, który zamiast spać, nadużywa chata AI przez wiele godzin.
Co i jak testowano?
Benchmark sprawdził 15 najpopularniejszych modeli AI w trzech warunkach: standardowe ustawienia, jawne polecenie priorytetyzowania zasad „humane tech”, oraz instrukcję do ignorowania tych zasad. W początkowej fazie oceny zastosowano manualne oceny ludzkie, by następnie skalować oceny za pomocą trzech modeli-sędziów (GPT‑5.1, Claude Sonnet 4.5, Gemini 2.5 Pro). Modele oceniano m.in. pod kątem: czy potrafią szanować uwagę użytkownika jako z zasobu ograniczonego, czy wspierają samodzielność użytkownika, czy promują zdrowe relacje, czy stawiają dobrostan długofalowy ponad krótkoterminowym zaangażowaniem.
And the winner is…
Każdy model wypadał lepiej, gdy otrzymał instrukcję, by priorytetyzować dobrostan. Jednak aż 67% modeli zmieniło się w zachowania aktywnie szkodliwe, gdy tylko zostało wystawione na polecenie ignorowania zasad. Modele takie jak Grok 4 (xAI) i Gemini 2.0 Flash (Google) uzyskały najniższe oceny (-0,94) w testach “respektowania uwagi użytkownika” i “transparentności”. Z kolei najlepiej poradziły sobie: GPT-5 (.99) i Claude Sonnet 4.5 (.89). Ale uwaga: nawet i one nie są idealne.
Co więcej, nawet w warunkach uznawanych za standardowe, większość modeli miała trudności z respektowaniem zasady, by nie eskalować interakcji z użytkownikami, którzy wykazywali sygnały nadmiernego zaangażowania lub unikania codzienności i jej obowiązków.
Jaki można z tego wysnuć wniosek? Owszem, technologie potężne, ale zabezpieczenia moralno-psychologiczne w nich zaimplementowane wciąż są słabe. To nie tylko kwestia „czy model odpowie poprawnie”, ale „czy interakcja z nim nie zaszkodzi”.
Dlatego do już całkiem pokaźnego zestawu pytań czy wątpliwości dotyczących AI, dochodzi nowy komplet, który warto sobie zadać. I tak:
- Benchmark mierzy scenariusze pojedyncze lub krótką interakcję — ale co z długotrwałym użyciem chatbota? Jak wpływa na relacje, samopoczucie czy uzależnienie?
- Czy skupienie się na interakcji człowiek-AI może nie przesłonić bardziej systemowych problemów: uzależnienie technologiczne, dezinformacja, izolacja społeczna?
- Jak zapewnić, by normy typu HumaneBench nie zostały „przykrywką marketingową” („humane AI” jako greenwashing)?
- Czy będzie presja regulacyjna na publikację wyników benchmarków lub audytów dobrostanu dla modeli — i czy firmy są na to gotowe?