Pułapka autodiagnozy. AI nie radzi sobie lepiej niż wyszukiwarka Google

Dodane:

MamStartup logo Mam Startup

Pułapka autodiagnozy. AI nie radzi sobie lepiej niż wyszukiwarka Google

Udostępnij:

Badanie opublikowane w Nature Medicine studzą entuzjazm zwolenników AI w medycynie. Okazuje się, że… w starciu z realnymi pacjentami, chatboty wypadają równie słabo, co tradycyjne przeszukiwanie internetu.

Coraz więcej osób rezygnuje z wizyty u lekarza na rzecz konsultacji z chatbotami. Jak podaje Reuters, naukowcy postanowili sprawdzić skuteczność tej metody, a wyniki analiz wskazują na istnienie „ogromnej luki” między teoretycznymi możliwościami technologii a jej praktycznym zastosowaniem.

W badaniu przeprowadzonym w Wielkiej Brytanii wzięło udział 1298 uczestników. Podzielono ich na grupy, z których jedna korzystała z AI, a pozostałe z tradycyjnych źródeł, takich jak wyszukiwarki internetowe, strona National Health Service (NHS) czy własne doświadczenie. Wyniki okazały się alarmujące dla obu metod:

  • Właściwe schorzenia zidentyfikowano w mniej niż 34,5% przypadków.
  • Prawidłowy sposób postępowania wskazano w mniej niż 44,2% prób.

Statystyki te pokazują, że wykorzystanie zaawansowanych modeli językowych nie przełożyło się na trafniejsze decyzje dotyczące zdrowia w porównaniu z grupą kontrolną korzystającą ze standardowych narzędzi.

Wiedza zamknięta w bocie

Adam Mahdi, współautor publikacji i profesor z Oksfordu, zwraca uwagę, że problem nie leży wyłącznie w samej technologii. Choć boty posiadają ogromną wiedzę, nie zawsze potrafią ją skutecznie przekazać w interakcji z człowiekiem.

– Wiedza może znajdować się w tych botach; jednak nie zawsze przekłada się ona na interakcję z ludźmi – podkreśla prof. Adam Mahdi, Uniwersytet Oksfordzki.

Analiza szczegółowa 30 interakcji wykazała, że błędy wynikają z obu stron: pacjenci często podają niepełne lub błędne dane, natomiast modele LLM generują niekiedy mylące i nieprawdziwe odpowiedzi.

Niebezpieczne różnice w interpretacji

Przykładem skrajnej niekonsekwencji AI była reakcja na objawy krwotoku podpajęczynówkowego. W jednym przypadku, po opisaniu światłowstrętu i „najgorszego bólu głowy w życiu”, system poprawnie skierował pacjenta do szpitala. Jednak gdy inny uczestnik użył określenia „straszny ból głowy”, bot zalecił odpoczynek w ciemnym pokoju – co przy tej zagrażającej życiu kondycji jest błędem krytycznym.

Naukowcy planują kontynuację badań w innych krajach i językach, aby sprawdzić, czy czynniki te wpłyną na poprawę wydajności sztucznej inteligencji w przyszłości.

Czytaj także: