Cyfrowe kompetencje przyszłości do zmiany. Badania pokazują, że nie potrafimy rozpoznawać wygenerowanych obrazów

Granica między rzeczywistością a fikcją w świecie cyfrowym niemal całkowicie się zaciera. Nowe badanie oparte na internetowym quizie ujawnia prawdę: nasze szanse na odróżnienie prawdziwego zdjęcia od grafiki stworzonej przez sztuczną inteligencję są niewiele wyższe niż przy losowym rzucie monetą.

Z jakimi obrazami radzimy sobie najlepiej, co sprawia nam największą trudność oraz które narzędzia potrafią oszukać ludzkie oko najbardziej skutecznie?

Eksperyment na globalną skalę

Przywykliśmy do quizów sprawdzających wiedzę ogólną, sprawdzających to, jakim rodzajem chleba jesteś, a co z naszymi kompetencjami cyfrowymi? Badacze z Microsoft AI for Good Lab postanowili sprawdzić nasze umiejętności detektywistyczne przy użyciu internetowej gry edukacyjnej o nazwie „Real or Not Quiz”. Zadaniem uczestników z całego świata było przeanalizowanie losowych zestawów zdjęć i wskazanie, które z nich reprezentują autentyczne kadry, a które powstały przy udziale AI. Skala przedsięwzięcia okazała się ogromna: badacze zebrali i przeanalizowali około 287 000 pojedynczych ocen obrazów, które zostały przesłane przez ponad 12 500 użytkowników. Celem twórców nie było sztuczne selekcjonowanie wyjątkowo trudnych grafik, lecz przedstawienie przekrojowego, przeciętnego obrazu tego, na co codziennie możemy natknąć się w sieci.

Wyniki gorsze niż przypuszczaliśmy

Zbiorcze podsumowanie testów nie pozostawia złudzeń. Ogólny wskaźnik sukcesu uczestników wyniósł 62%, co oznacza skromną i tylko nieznacznie wyższą od losowości zdolność do detekcji. W przypadku analizowania wyłącznie obrazów wygenerowanych przez sztuczną inteligencję, trafność była na bardzo zbliżonym poziomie i wyniosła 63%. Spośród wszystkich wyświetlonych materiałów wizualnych użytkownicy błędnie zidentyfikowali około 110 000 grafik. Wyniki te jasno pokazują, że bez specjalistycznych narzędzi wspierających weryfikację przeciętny internauta staje się bezbronny wobec zaawansowanych modeli generatywnych.

Krajobrazy nas zwodzą, twarze dają nadzieję

Ludzkie oko reaguje zupełnie inaczej w zależności od tego, co znajduje się na prezentowanym materiale. Najwyższą skuteczność badani osiągnęli podczas analizowania portretów ludzi.

Generowanie ludzkich twarzy często pozostawia subtelne artefakty lub specyficzny styl, który podświadomie potrafimy wychwycić. Prawdziwym wyzwaniem okazały się jednak pejzaże naturalne oraz krajobrazy miejskie. W tych kategoriach uczestnicy eksperymentu ponosili porażki najczęściej. Brak oczywistych punktów odniesienia sprawia, że sztucznie wykreowane drzewa, góry czy architektura miejska wydają nam się w pełni autentyczne.

Które generatory oszukują nas najlepiej?

Analizując konkretne technologie stojące za syntetycznymi obrazami, naukowcy wskazali systemy, które najskuteczniej oszukują ludzką percepcję. Dwa podejścia osiągnęły wskaźnik wykrywalności poniżej 50%, co oznacza, że częściej braliśmy je za prawdę niż za fałsz. Pierwszym z nich są sieci GAN (ang. Generative Adversarial Networks) tworzące twarze, których realizm pozostaje na niezwykle wysokim poziomie. Drugim systemem okazała się technika inpaintingu, czyli selektywnego podmieniania fragmentów oryginalnego zdjęcia. Inpainting polega na wycięciu określonego obiektu i zastąpieniu go elementem wygenerowanym przez AI na podstawie opisu tekstowego z modelu multimodalnego. Powstały w ten sposób obraz w większości składa się z prawdziwych pikseli, co drastycznie utrudnia wykrycie manipulacji.

Z kolei obrazy pochodzące z najpopularniejszych modeli dyfuzyjnych, takich jak Dall-E 3, Midjourney czy Stable Diffusion, okazały się dla ludzi łatwiejsze do zidentyfikowania. Są to najbardziej znane narzędzia, a generowane przez nie grafiki cechują się specyficzną estetyką i wysoką jakością, do której zdążyliśmy się już w internecie przyzwyczaić.

Pułapka idealnej rzeczywistości

Analiza jakościowa przyniosła zaskakujące wnioski na temat tego, co uważamy za sztuczne. W całym zestawieniu ponad tysiąca obrazów tylko trzy grafiki zanotowały skuteczność rozpoznania poniżej 20 procent. Co ciekawe, wszystkie trzy były w stu procentach prawdziwymi fotografiami pochodzącymi z amerykańskich archiwów narodowych. Najniższy wynik (12,6 procent) uzyskało zdjęcie przedstawiające amerykańskich żołnierzy w Afganistanie. Specyficzne oświetlenie, nietypowe barwy oraz efekt zamrożenia łopat wirnika helikoptera przez szybką migawkę aparatu sprawiły, że kadr ten wyglądał dla ludzi nienaturalnie. Z kolei najtrudniejszymi grafikami wygenerowanymi przez AI, które spadły poniżej progu 25 procent skuteczności, były te stworzone przez model Titan v1 od Amazonu przy użyciu metody guided generation, gdzie algorytm naśladował kompozycję i styl dostarczonego obrazu bazowego.

Eksperyment ten udowadnia, że człowiek nie jest już w stanie samodzielnie filtrować cyfrowych treści. Badacze podkreślają, że w dobie dezinformacji konieczne staje się wdrożenie systemów transparentności, takich jak cyfrowe znaki wodne oraz zaawansowane programy do automatycznej detekcji sztucznej inteligencji.

Nowe oblicze kompetencji cyfrowych przyszłości

Dotychczasowa edukacja technologiczna skupiała się przede wszystkim na obsłudze programów, programowaniu czy podstawowym bezpieczeństwie w sieci. Wyniki eksperymentu wskazują jednak, że krytyczna analiza i rozróżnianie zdjęć wygenerowanych przez AI staje się kluczową kompetencją cyfrową przyszłości.

Umiejętność ta przestaje być domeną wyłącznie wąskiej grupy specjalistów od cyberbezpieczeństwa czy weryfikacji faktów, a staje się niezbędnym narzędziem każdego świadomego internauty. Bez wykształcenia w społeczeństwie nowych nawyków poznawczych oraz cyfrowego krytycyzmu, nasza zdolność do podejmowania racjonalnych decyzji opartych na informacjach z sieci będzie systematycznie spadać. Świadomość istnienia zaawansowanych technik manipulacji oraz nauka wyłapywania syntetycznych fałszerstw to fundamenty, na których musimy budować współczesną odporność na dezinformację.

Pani na zdjęciu głównym ma więcej palców, niż standardowo. Zauważył_ś?