AI trafniej niż lekarze? Badanie z Harvardu otwiera oczy na… medyczne badania

Najnowsze badanie zespołu z Harvard Medical School pokazuje, że w niektórych przypadkach AI może już nie tylko wspierać lekarzy, ale wręcz ich przewyższać. A przynajmniej w jednym, kluczowym aspekcie: diagnozie.

Wyniki, które zmieniają perspektywę

Badanie opublikowane w czasopiśmie naukowym Science, analizowało skuteczność dużych modeli językowych (LLM) w warunkach zbliżonych do pracy oddziału ratunkowego. W eksperymencie wykorzystano rzeczywiste przypadki pacjentów — łącznie 76 scenariuszy klinicznych.

Wyniki są jednoznaczne.

Otóż, AI osiągnęła trafność diagnozy na poziomie ok. 67%, podczas gdy lekarze uzyskali 50–55%. Dodatkowo, po dostarczeniu dodatkowych danych medycznych skuteczność AI wzrosła nawet do 82%, przewyższając ludzi Jak podkreślają autorzy, badany model — należący do rodziny systemów rozwijanych przez OpenAI — wykazał szczególną przewagę w zadaniach wymagających złożonego rozumowania klinicznego.

Nie tylko diagnoza: przewaga w planowaniu leczenia

Jeszcze bardziej uderzające są wyniki dotyczące planowania terapii. AI uzyskała aż 89% poprawnych rekomendacji, podczas gdy lekarze — zaledwie 34% . To sugeruje, że modele językowe zaczynają nie tylko rozpoznawać choroby, ale również proponować spójne ścieżki leczenia — co dotąd uznawano za domenę doświadczenia klinicznego.

Zespół badawczy zastosował zestaw testów obejmujących:

klasyczne studia przypadków medycznych
realistyczne scenariusze z oddziałów ratunkowych
zadania diagnostyczne i decyzyjne

Porównywano odpowiedzi AI i lekarzy na tych samych danych wejściowych. Warto podkreślić, że lekarze pracowali bez wsparcia dodatkowych narzędzi diagnostycznych — co mogło wpłynąć na wyniki.

Ale eksperci tonują entuzjazm

Choć wyniki są imponujące, badacze i lekarze są zgodni: to nie jest moment, w którym AI zastąpi medyków. Jak zauważają autorzy badania, system nie analizuje sygnałów niewerbalnych (np. wyglądu pacjenta, emocji). Co więcej, nie funkcjonował on w warunkach rzeczywistego SOR-u. No i rzecz najważniejsza: AI nie ponosił prawnej odpowiedzialności za swoje decyzje. W konsekwencji, AI należy traktować raczej jako narzędzie wspierające. Pojawia się koncepcja tzw. modelu triadycznego — współpracy lekarza, pacjenta i AI .

Badanie z Harvardu wpisuje się w szerszy trend. Już wcześniejsze analizy wskazywały, że systemy AI potrafią dorównywać lekarzom, a nawet ich przewyższać w wybranych zadaniach diagnostycznych. Jednocześnie rośnie świadomość ograniczeń, rozumianego jako ryzyko nadmiernego zaufania do algorytmów. Swoje żniwo może zebrać też brak empatii i kontekstu społecznego, a także potencjalne błędy wynikające z danych treningowych.

Jak zauważa jeden z ekspertów cytowanych w analizach, AI powinna pełnić rolę „drugiej opinii”, a nie autonomicznego decydenta .

Jeśli wyniki potwierdzą się w badaniach klinicznych, możemy być świadkami głębokiej transformacji systemów ochrony zdrowia. Możemy liczyć na szybsze i trafniejsze diagnozy w SOR-ach. Przeciążeni lekarze otrzymają efektywne wsparcie, a koszty opieki nad pacjentem obniżą się.

Oczywiście, pod warunkiem, że „jeśli”.