Coraz więcej osób rezygnuje z wizyty u lekarza na rzecz konsultacji z chatbotami. Jak podaje Reuters, naukowcy postanowili sprawdzić skuteczność tej metody, a wyniki analiz wskazują na istnienie „ogromnej luki” między teoretycznymi możliwościami technologii a jej praktycznym zastosowaniem.
W badaniu przeprowadzonym w Wielkiej Brytanii wzięło udział 1298 uczestników. Podzielono ich na grupy, z których jedna korzystała z AI, a pozostałe z tradycyjnych źródeł, takich jak wyszukiwarki internetowe, strona National Health Service (NHS) czy własne doświadczenie. Wyniki okazały się alarmujące dla obu metod:
- Właściwe schorzenia zidentyfikowano w mniej niż 34,5% przypadków.
- Prawidłowy sposób postępowania wskazano w mniej niż 44,2% prób.
Statystyki te pokazują, że wykorzystanie zaawansowanych modeli językowych nie przełożyło się na trafniejsze decyzje dotyczące zdrowia w porównaniu z grupą kontrolną korzystającą ze standardowych narzędzi.
Wiedza zamknięta w bocie
Adam Mahdi, współautor publikacji i profesor z Oksfordu, zwraca uwagę, że problem nie leży wyłącznie w samej technologii. Choć boty posiadają ogromną wiedzę, nie zawsze potrafią ją skutecznie przekazać w interakcji z człowiekiem.
– Wiedza może znajdować się w tych botach; jednak nie zawsze przekłada się ona na interakcję z ludźmi – podkreśla prof. Adam Mahdi, Uniwersytet Oksfordzki.
Analiza szczegółowa 30 interakcji wykazała, że błędy wynikają z obu stron: pacjenci często podają niepełne lub błędne dane, natomiast modele LLM generują niekiedy mylące i nieprawdziwe odpowiedzi.
Niebezpieczne różnice w interpretacji
Przykładem skrajnej niekonsekwencji AI była reakcja na objawy krwotoku podpajęczynówkowego. W jednym przypadku, po opisaniu światłowstrętu i „najgorszego bólu głowy w życiu”, system poprawnie skierował pacjenta do szpitala. Jednak gdy inny uczestnik użył określenia „straszny ból głowy”, bot zalecił odpoczynek w ciemnym pokoju – co przy tej zagrażającej życiu kondycji jest błędem krytycznym.
Naukowcy planują kontynuację badań w innych krajach i językach, aby sprawdzić, czy czynniki te wpłyną na poprawę wydajności sztucznej inteligencji w przyszłości.