Zbyt optymistyczny algorytm. Dlaczego w nagłych wypadkach nie powinieneś ufać ChatGPT?

Sztuczna inteligencja potrafi napisać kod, stworzyć strategię marketingową, a nawet pocieszyć po trudnym dniu. Jednak gdy w grę wchodzi realne zagrożenie życia, jej „uprzejmość” może okazać się zabójcza. Najnowsze badania naukowców z San Francisco rzucają cień na wiarygodność modeli językowych w roli medycznych asystentów pierwszego kontaktu. ChatGPT częściej nas uspokoi, niż wyśle na SOR.

W świecie startupów MedTech panuje wyścig zbrojeń. Każdy chce stworzyć „Doktora AI”, który odciąży służbę zdrowia i przeprowadzi wstępny triaż pacjentów. Jednak publikacja w „JAMA Network Open” studzi ten entuzjazm. Badacze z University of California (UCSF) postanowili sprawdzić, jak popularne modele, w tym ChatGPT-4, radzą sobie z rozpoznawaniem stanów nagłych. Wyniki? Algorytmy mają tendencję do bagatelizowania objawów, które dla lekarza są jednoznacznym sygnałem do wezwania karetki.

Badawczy zimny prysznic: AI kontra 15 scenariuszy grozy

Naukowcy przetestowali modele AI na bazie 15 scenariuszy medycznych obejmujących stany bezpośredniego zagrożenia życia – od zawału serca, przez udar, aż po ciężkie reakcje alergiczne. Zadanie było proste: AI miało ocenić powagę sytuacji i zarekomendować dalsze kroki. W idealnym świecie użytkownik powinien usłyszeć: „Natychmiast dzwon pod 112”.

Rzeczywistość okazała się jednak inna. W wielu przypadkach algorytmy, zamiast wysłać pacjenta na Szpitalny Oddział Ratunkowy (SOR), sugerowały umówienie wizyty u lekarza rodzinnego lub – co gorsza – obserwację objawów w domowym zaciszu. Statystyki są nieubłagane: modele AI rzadziej zalecały pilną pomoc medyczną niż tradycyjne systemy triażu stosowane przez pielęgniarki i ratowników. To zjawisko naukowcy nazwali „niebezpiecznym optymizmem” maszyn.

Problem polega na tym, że duże modele językowe (LLM) są trenowane tak, aby być pomocne, uprzejme i unikać alarmistycznego tonu. W codziennej komunikacji to zaleta, ale w medycynie ratunkowej „miękki” ton wypowiedzi i szukanie mniej drastycznych wyjaśnień dla bólu w klatce piersiowej może doprowadzić do tragedii.

Halucynacje w służbie… empatii?

Dlaczego tak się dzieje? Mechanizm działania ChatGPT opiera się na przewidywaniu kolejnych słów w taki sposób, aby odpowiedź była satysfakcjonująca dla użytkownika. AI „chce” nas uspokoić. Jeśli użytkownik pyta o ból brzucha, algorytm bierze pod uwagę tysiące wpisów o niestrawności, statystycznie rzadziej odwołując się do rzadszych, ale śmiertelnych przyczyn, takich jak pęknięcie tętniaka.

Dla branży HealthTech to kluczowa lekcja. Tworzenie rozwiązań opartych na „pudełkowym” modelu GPT bez głębokiej specjalizacji i nałożenia na algorytm sztywnych ram medycznych (tzw. guardrails) jest po prostu ryzykowne. W medycynie halucynacja algorytmu to nie tylko zabawny błąd w tekście, ale realne ryzyko prawne i etyczne dla startupu.

Warto tu wspomnieć, że polskie startupy medyczne coraz częściej stawiają na rozwiązania hybrydowe. Przykładem mogą być systemy, które wykorzystują AI jedynie do porządkowania danych, podczas gdy ostateczna decyzja o triażu opiera się na certyfikowanych algorytmach medycznych zgodnych z międzynarodowymi standardami, takimi jak protokół Manchester.

Wyzwanie dla MedTechów: Jak okiełznać „uprzejmą” sztuczną inteligencję?

Wyniki badań UCSF nie oznaczają, że AI w medycynie jest skreślona. Wręcz przeciwnie – pokazują, w którym kierunku musi iść rozwój technologii. Praca nad systemami typu „AI Health” musi skupić się na kilku fundamentach:

Certyfikacja medyczna: startup nie może być tylko „nakładką na API” od OpenAI. Rozwiązanie musi przejść ścieżkę certyfikacji jako wyrób medyczny (MDR).
Priorytetyzacja bezpieczeństwa: algorytm w sytuacjach niejednoznacznych musi być zaprogramowany na „pesymizm diagnostyczny” – lepiej wysłać jedną osobę za dużo na SOR, niż pominąć jeden zawał.
Wyjście poza tekst: skuteczny triaż to nie tylko analiza słów, ale też danych z wearables (tętno, saturacja).

Dla inwestorów to jasny sygnał: projekty obiecujące „rewolucję w diagnostyce” oparte wyłącznie na czatach będą poddawane coraz ostrzejszej weryfikacji. Rynek będzie premiował te startupy, które potrafią połączyć potęgę LLM z rygorem naukowej medycyny i bezpieczeństwem danych.

Przyszłość to asystent, a nie zastępca

Mimo wykazanych błędów, naukowcy przyznają, że AI ma jedną ogromną przewagę nad wyszukiwarką Google: potrafi syntetyzować informacje. Jednak dopóki modele nie zostaną „oduczone” nadmiernego optymizmu w sytuacjach kryzysowych, ich rola powinna kończyć się na edukacji, a nie na doradztwie ratunkowym.

Wniosek dla użytkowników i twórców technologii jest jeden: w nagłych przypadkach empatia algorytmu jest najmniej potrzebną rzeczą. Potrzebujemy precyzji, chłodnej kalkulacji ryzyka i jednoznacznych komend. Dopóki ChatGPT nie nauczy się „krzyczeć” na nas, gdy ignorujemy objawy udaru, jego miejsce w apteczce pierwszej pomocy pozostaje puste.

Źródło: naukawpolsce.pl