Xlungs to polska platforma, która ma wspierać lekarzy w analizie obrazów płuc. Narzędzie zostało zbudowane przy współpracy radiologów i inżynierów w celu analizy obrazów tomografii komputerowej płuc. Jak twierdzą autorzy platformy, narzędzie wyuczone zostało tylko przy użyciu danych medycznych, więc nie może rozpoznawać twarzy czy generować dowolnych rysunków. Jednak to do czego zostało stworzone, segmentacja organów i rozpoznawanie występujących na nich anomalii, w opinii twórców wykonuje lepiej niż ogólny model.
O szczegóły tego rozwiązania pytamy dr. hab. inż. Marcina Lucknera, prof. Politechniki Warszawskiej, Wydział Matematyki i Nauk Informacyjnych.
Mówi Pan Profesor, że Xlungs „robi jedno, ale dobrze”. Czy to oznacza, że epoka wielkich modeli językowych – które mają robić wszystko – już się kończy? Czy raczej po prostu przesuwamy się do świata współpracy: LLM + narrow AI?
Spodziewam się, że z czasem wśród narzędzi AI dojdzie do swoistego podziału kompetencji na podstawowe i eksperckie. Nadal będzie istniała w nas potrzeba dowiedzenia się czegoś z obszaru wiedzy ogólnej, albo chęć porozmawiania z chatbotem dla rozrywki. LLM-y będą coraz lepiej się w nią wpisywać, zwłaszcza że następować będzie coraz większa personalizacja tych interakcji. Jednak do zastosowań profesjonalnych, to wyspecjalizowane AI agentowe będzie preferowane. Działa lepiej. Zapewne pojawią się też formy hybrydowe, podobnie jak dzisiaj Google zapytane o prognozę pogody, nie szuka jej w całym internecie, tylko sprawdza w profesjonalnej bazie danych meteo.
Czy Xlungs to model „inteligentniejszy” niż LLM w swoim obszarze? A może po prostu „posłuszniejszy”, bo nie halucynuje?
Żaden LLM w procesie trenowania nie zapoznał się z 40 tys. obrazami tomografii komputerowej. Z kolei nasz model zna wyłącznie takie zdjęcia, więc jest specjalistą w tym konkretnie obszarze. Nie pomyli na obrazie TK serca z bakłażanem, bo nie ma możliwości operować pojęciami wykraczającymi poza organy występujące w sąsiedztwie płuc. Może natomiast, w teorii, pomylić tchawicę z aortą.
Czy testowaliście Xlungs w bezpośrednim porównaniu z modelem typu GPT-4 Vision lub Claude 3 Opus – pod kątem analizy obrazów TK płuc?
Nasz model był porównywany z innymi wyspecjalizowanymi modelami do analizy obrazów tomografii komputerowej (TK). Modele takie pracują na specjalistycznych danych w formacie DICOM stosowanym do obrazów medycznych. W skrócie, format ten zawiera nie jeden, a kilkaset obrazów, które służą do odtworzenia trójwymiarowej wizualizacji organów. To odróżnia je od zdjęć, które mógł “obejrzeć” GPT-4 i inne duże modele językowe i sprawia, że ich możliwości są nieporównywalne.
Skoro Xlungs został wytrenowany tylko na danych medycznych – czy to oznacza, że nigdy nie halucynuje?
Model pracuje na istniejących danych i interpretuje je. Nie tworzy nowej treści jak modele generatywne, więc nie może halucynować, zmyślając nowe treści. Model może jednak się mylić i teoretycznie – bo nie mam takiego przykładu – mógłby stwierdzić, że wykrywa u pacjenta tylko jedno płuco. Z punktu widzenia radiologa, który na obrazowaniu widzi obydwa płuca, mogłoby być to wzięte za halucynację. Natomiast nie jest to halucynacja, jaką znamy z LLM. Model nie jest zdolny np. do stwierdzenia, że na obrazowaniu płuc widzi głowę.
Czy nie obawia się Pan Profesor, że zbyt wąska specjalizacja modelu może skutkować jego ograniczeniem w radzeniu sobie z nietypowymi przypadkami – np. nową chorobą płuc, która jeszcze nie występowała w danych treningowych?
Model, który rozpoznaje tylko określone schorzenia może się tak zachować. My staramy się takie ryzyko ograniczać poprzez zastosowanie norm w wymiarowaniu organów. Jeżeli – na skutek zajęcia przez nieznaną chorobę części płuc – model obniży poniżej normy szacowanie ich pojemności, radiolog zostanie poinformowany o wystąpieniu anomalii.
Warto mieć na uwadze, że naszym zamiarem nigdy nie było stworzenie narzędzia, które zastąpiłoby radiologów i dało możliwość diagnozowania chorób płuc lekarzom rodzinnym czy wręcz zupełnym laikom. Xlungs ma przede wszystkim wspierać lekarzy specjalistów – na takiej samej zasadzie jak robią to stetoskop czy termometr – i to lekarze specjaliści dokonywać będą interpretacji wyników i stawiać diagnozy, za które wezmą odpowiedzialność.
Czy dane medyczne, na których uczony był Xlungs, pochodziły z jednej placówki czy z wielu? Jak zadbaliście o ich różnorodność?
Dane pochodziły z wielu placówek medycznych, gdyż zostały pozyskane od Polskiej Grupy Raka Płuca. Dane obejmują różne rodzaje obrazowania, w tym obrazowania z kontrastem i bez oraz z różną częstotliwością skanowania. Obrazy wykonywane były przez różne skanery pochodzące od czterech głównych producentów. Te różnice wpływają w pewien sposób na jakość obrazowania np. jeżeli odstępy między skanami są większe, to wymagana jest większa interpolacja danych. Ogólnie jednak można stwierdzić, że model potrafi poradzić sobie z danymi z różnych źródeł. Obecnie trwa pozyskiwanie i przetwarzanie kolejnych baz danych, aby poszerzyć możliwości modelu i zwiększyć jego dokładność.
W LLM-ach dużym problemem jest „bias” – czyli uprzedzenia wynikające z danych treningowych. Czy podobne zjawisko może wystąpić w Xlungs? Na przykład: preferowanie rozpoznawania pewnych anomalii, a ignorowanie innych?
Takie zjawiska występują, ze względu na częstotliwość występowania różnych schorzeń. Dlatego tak zaprojektowaliśmy nasz model, by ograniczał się do wymiarowania organów dla których odstępy od norm mogą świadczyć o anomaliach, bez predykcji schorzeń. Na potencjalne schorzenie wskazuje dopiero wówczas, gdy ma co do tego wysoką pewność potwierdzoną analizami statystycznymi. W tym momencie wdrożony jest również dodatkowo moduł wykrywania guzków.
Czy planujecie rozwijać Xlungs jako narzędzie open-source dla środowisk akademickich i startupów medtech, czy raczej jako komercyjny produkt medyczny?
Projekt finansowany był ze środków publicznych i zgodnie z zapisami umowy grantowej jesteśmy zobowiązani do udostępnienia danych. Po ustaleniu z wszystkimi zainteresowanymi stronami zakresu tego udostępnienia – a mówimy o danych medycznych, które są danymi potencjalnie wrażliwymi – przetworzone dane zostaną udostępnione społeczności akademickiej. Jeśli chodzi o samą platformę do przetwarzania danych medycznych – to zakończyliśmy etap pre-inkubacji w akceleratorze Centrum Innowacji Politechniki Warszawskiej.
Czy Xlungs był już testowany lub wdrażany w szpitalach? Jak wyglądała współpraca z lekarzami-radiologami – byli entuzjastyczni czy raczej sceptyczni?
Obecnie podpisujemy listy intencyjne i umowy o współpracy z ośrodkami medycznymi, w tym szpitalami, w Polsce i zagranicą. Za wcześnie jest jednak, aby ujawniać konkretne ośrodki, które się na to zdecydowały. Trójka lekarzy pracowała cały czas w projekcie jako część zespołu. Przeprowadziliśmy także jego testy podczas warsztatów dla radiologów. Średnia ocena z użytkowania systemu od 15 ekspertów uczestniczących w warsztatach wyniosła ponad 4 w skali od 1 do 5. Przychylne oceny wynikają zapewne z tego, że system autentycznie wspiera lekarzy.
AI często świetnie wypada w testach, ale znacznie gorzej radzi sobie w realnych warunkach klinicznych. Co zrobiliście, by Xlungs nie był tylko „medycznym modelem demo”, ale realnym narzędziem diagnostycznym?
Przez cały czas trwania projektu współpracowaliśmy z radiologami, którzy oceniali praktyczne aspekty naszego systemu. System był także testowany na szerokim spektrum danych, wliczając dane uzyskane ze źródeł publicznych jak i niedostępnych wcześniej, jak dane Polskiej Grupy Raka Płuca. Pozyskujemy nadal nowe dane i testujemy na nich system, aby potwierdzić jego możliwości generalizacyjne.
Jakie są największe bariery upowszechnienia XLungs w polskich szpitalach? Czy chodzi o kwestie finansowe, techniczne, czy może mentalne?
Robimy co możemy, aby przełamać bariery. Najłatwiej jest z kwestiami technicznymi, bo system działa jako aplikacja przeglądarkowa, a silnik obliczeniowy znajduje się po naszej stronie. Wykorzystujemy tu centrum obliczeniowe Wydziału Matematyki i Nauk Informacyjnych Politechniki Warszawskiej, bez którego mocy nie moglibyśmy stworzyć modelu.
Bariery mentalne staramy się przełamać poprzez prezentację naszego rozwiązania na spotkaniach branżowych.
Kwestie finansowe mogą być najtrudniejsze. System nie miałby szans powstać bez grantu w ramach programu INFOSTRATEG I, ale każde kolejne wdrożenie powinno powodować zmniejszenie kosztów przez efekt skali.
Czy projekt Xlungs ma potencjał, by stać się punktem wyjścia dla kolejnych wyspecjalizowanych modeli: np. Xbrain, Xheart, Xcolon? A może już nad takimi pracujecie?
Obrazowanie dokonywane podczas badania płuc obejmuje kilkanaście organów, w tym serce, więc na ten moment mamy czym się zajmować. Projekt jest ciągle rozwijany i spodziewamy się, że jeszcze sporo nowych funkcji w nim się pojawi, także dotyczących diagnozy innych organów.
W każdym razie my, czyli zespół badawczy MI².AI , w najbliższej przyszłości nie planujemy przenieść uwagi na dane medyczne pochodzące z innego zasobu. Jednak nawet równolegle z naszymi pracami, finansowane były dwa inne projekty w programie INFOSTRATEG I, zajmującymi się innymi zagadnieniami medycznymi. Przeciętny szpital potrafi generować nawet kilka petabajtów danych medycznych rocznie, a ochronę zdrowia cyfryzujemy od dobrych kilkunastu lat. Na pewno jest więc na czym pracować. Potrzebujemy tylko dobrej współpracy między badaczami z różnych obszarów i świadomości, potencjału tkwiącego w danych.