„Zapytaj o cokolwiek… byle nie o zapach, smak, dotyk”. AI nie jest doskonała. Brakuje jej kilku zmysłów

Dodane:

Przemysław Zieliński Przemysław Zieliński

„Zapytaj o cokolwiek… byle nie o zapach, smak, dotyk”. AI nie jest doskonała. Brakuje jej kilku zmysłów

Udostępnij:

O tym, że sztuczna inteligencja nie rozumie zmysłowego świata, przekonują nas nowe badania pokazują granice możliwości LLM-ów.

Niektórzy krzykną: „a nie mówiłem!”, inni stękną: „znów czepiają się ChatGPT”. Ktoś pokręci nosem, ktoś inny spuści nos na kwintę – tylko biedna AI nic z nosem nie zrobi, bo… ten i inne zmysły są poza jej zasięgiem. W dobie dynamicznego rozwoju sztucznej inteligencji, pytanie o to, na ile modele językowe potrafią zrozumieć świat bez bezpośredniego doświadczenia zmysłowego, staje się coraz bardziej palące. Najnowsze badania opublikowane w Nature Human Behaviour rzucają światło na tę kwestię, analizując zdolność dużych modeli językowych (LLM) do odwzorowywania ludzkich pojęć.

Celem badania pn. „Large language models without grounding recover non-sensorimotor but not sensorimotor features of human concepts” było sprawdzenie, czy LLM-y, które uczą się wyłącznie na podstawie tekstu, potrafią odtworzyć reprezentacje pojęć podobne do tych, jakie posiadają ludzie. Szczególną uwagę poświęcono różnicy między pojęciami związanymi z doświadczeniem zmysłowym (np. kolor, dotyk) a tymi bardziej abstrakcyjnymi (np. emocje, znaczenie słów).

Naukowcy porównali reprezentacje około 4 442 pojęć wśród ludzi oraz w modelach językowych, takich jak GPT-3.5 i GPT-4. Analiza obejmowała różne wymiary, w tym emocje, wyrazistość, zdolność do wizualizacji, a także doświadczenia sensoryczne i motoryczne. Dodatkowo, oceniono wpływ integracji danych wizualnych na zdolność modeli do odwzorowywania ludzkich pojęć.

Sensoryka i motoryka – nie do przeskoczenia

Badanie wykazało, że LLM-y dobrze radzą sobie z odtwarzaniem pojęć niezwiązanych bezpośrednio z doświadczeniem zmysłowym, takich jak emocje czy znaczenia słów. Jednak w przypadku pojęć opartych na doświadczeniach sensorycznych i motorycznych, ich zdolności są znacznie ograniczone. Integracja danych wizualnych, jak w przypadku GPT-4, poprawia wyniki w niektórych obszarach, ale nie eliminuje całkowicie tych ograniczeń.

Badania sugerują, że chociaż LLM-y potrafią odtworzyć wiele aspektów ludzkich pojęć na podstawie tekstu, brak bezpośredniego doświadczenia zmysłowego ogranicza ich zdolność do pełnego zrozumienia świata. Integracja danych z różnych modalności, takich jak obraz czy dźwięk, może poprawić ich wydajność, ale nie zastąpi w pełni ludzkiego doświadczenia.
W kontekście rozwoju sztucznej inteligencji, wyniki te podkreślają znaczenie badań nad multimodalnymi modelami, które łączą różne źródła danych, aby lepiej odwzorować ludzkie rozumienie świata.

Źródło: Xu, Q., Peng, Y., Nastase, S. A., Chodorow, M., Wu, M., & Li, P. (2025). Large language models without grounding recover non-sensorimotor but not sensorimotor features of human concepts. Nature Human Behaviour.arxiv.org

Czytaj także: