Użycie AI do wykrycia audio deep fakes może być w przyszłości trudne – Jan Szajda (IDENTT)

Dodane:

Przemysław Zieliński Przemysław Zieliński

Użycie AI do wykrycia audio deep fakes może być w przyszłości trudne – Jan Szajda (IDENTT)

Udostępnij:

Z Janem Szajdą (IDENTT) rozmawiamy o metodach tworzenia audio deep fakes i o tym, jak się przed takimi oszukańczymi nagraniami chronić.

Najpopularniejsze metody wykorzystywane do tworzenia audio deep fakes to…

Metody tworzenia audio deepfake zazwyczaj bazują na generatywnych sieciach adwersarialnych, których działanie polega na rywalizacji dwóch sieci neuronowych pomiędzy sobą. To generator contentu, czyli nagrania audio i dyskryminator, który ocenia wygenerowane przez pierwszą sieć rezultaty pod kątem tego, czy zostały wygenerowane przez komputer w sposób automatyczny, czy też są prawdziwym nagraniem. Te dwie sieci neuronowe rywalizują pomiędzy sobą. To prowadzi do coraz lepszej jakości generowania nieprawdziwych plików audio. Dzięki zastosowaniu sztucznej inteligencji nie tylko do generowania, ale także do detekcji tych audio deep fake’ów, to podejście powoduje, że otrzymujemy bardzo wysoką jakość nagrania. W pewnych sytuacjach niemożliwe jest nawet automatyczne wykrycie, czy ten content został wygenerowany w sposób sztuczny przez komputer, czy jest to naturalne nagranie jakiejś osoby.

Przykładem rozwiązania wykorzystywanego do generowania deep fake jest np. technologia text-to-speech, powszechnie znana z takich asystentów głosowych takich jak Siri czy Alexa. Ta metoda generowania deep fake’ów opiera się na takich algorytmach. generowania głosu, czytania tekstu, który został wcześniej przygotowany. Także to rozwiązanie może być wykorzystane do wygenerowania sztucznej treści audio deep fake.

Istnieją narzędzia do rozpoznawania takich fałszywych nagrań?

Takie narzędzia istnieją, chociaż należy tutaj podkreślić, że one są zazwyczaj elementami trwających badań naukowych. Wyzwaniem, z jakim możemy spotkać się w trakcie korzystania z takich narzędzi, jest problem generalizacji. Chodzi o to, że te rozwiązania potrafią rozpoznawać pewnego rodzaju audio deep fakes konkretnych typów. a mogą mieć problemy z rozpoznawaniem deep fake’ów, które są wygenerowane w inny niż wcześniej znany sposób. I to jest coś, z czym należy się mierzyć, z czym my także mierzymy się jako zespół IDENTT. Przygotowujemy takie rozwiązania, które w sposób generalny potrafią rozpoznawać, czy dany content jest wygenerowany w sposób sztuczny, niezależnie od sposobu generowania takiego pliku audio.

Czy do takiego rozwiązania ma dostęp każdy internauta?

Jeżeli chodzi o możliwość skorzystania przez przeciętną osobę z takich rozwiązań, to takie możliwości są. Możemy to porównać do korzystania z programów antywirusowych. Trzeba jednak wziąć pod uwagę, że obecnie te rozwiązania skupiają się przede wszystkim na treściach anglo- i chińskojęzycznych, co ogranicza globalną skuteczność tych systemów, między innymi dla języka polskiego.

Jak w takim razie możemy się chronić przed takimi sztucznymi nagraniami głosowymi?

Wspomniałem już, że są pewnego rodzaju rozwiązania, nad którymi co prawda dopiero się pracuje, ale można w pewnym stopniu z nich korzystać. Na tę chwilę najbardziej skutecznym rozwiązaniem jest po prostu weryfikowanie informacji w innych niezależnych źródłach. Jeżeli ktoś do nas dzwoni, przedstawia jakąś informację, szczególnie taką, która wydaje nam się odrobinę niespójna, a może nagła i niespodziewana, należy tę informację zweryfikować drugim kanałem. Napisać do tej osoby, która rzekomo dzwoniła, zadzwonić jeszcze do kogoś, kto tę osobę zna, kto może potwierdzić albo zaprzeczyć tej informacji.

Musimy mieć rezerwę do tych informacji, które widzimy w mediach społecznościowych. Nawet do filmów przesyłanych rzekomo przez znane nam i bliskie osoby. Musimy mieć na uwadze, że może to być nieprawdziwa informacja i należy to zweryfikować. Obecne badania wskazują, że nawet 80% treści, które są deep fake’ami, jest niewykrywalna dla ludzi, dla słuchaczy. Najczęściej – co też jest ważne – jeżeli coś jest już wykryte i zdefiniowane, określone przez poszczególne osoby jako deep fake, to nie z powodów jakichś niedoskonałości w wygenerowanym pliku audio, jakichś artefaktów, które możemy wychwycić uchem. Nie. Takie treści są wychwytywane dlatego, że ta informacja jakoś nam się nie klei. Jest dla nas podejrzana. Dziwna.

I to nam podpowiada, na to, że powinniśmy bardzo uważnie i z rezerwą traktować różnego rodzaju informacje, które do nas docierają. Dodatkowo je weryfikować. To jest chyba najbardziej skuteczna metoda zapobiegania temu, żebyśmy byli poddani takim nieprawidłowym informacjom.

Czyli oszuści mają do dyspozycji nowoczesne technologie, które stale rozwijają, a my do obrony mamy wciąż te same mechanizmy, które stosują seniorzy, chroniąc się przed tzw. metodą na wnuczka?

Zgadza się. To jest w tej chwili najbardziej skuteczne rozwiązanie. Ale to też wskazuje na konieczność inwestycji w nowego rodzaju rozwiązania. Tak jak wspomniałem, to coś nad czym jako zespół pracujemy, chcemy te rozwiązania rozwijać, ale to wymaga ogromnych inwestycji i ciągłych prac. To nie jest tak, że się przygotuje jakieś rozwiązanie i ono będzie gotowe i już zawsze będzie działać. Jako IDENTT prowadzimy takie badania naukowe. Prowadzimy także komercjalizację naszych rezultatów i prac i cały czas staramy się inwestować w rozwój takich technologii, które będą wspomagać sprawdzanie, czy dana treść została wygenerowana sztucznie, czy jest oryginalna.

Chciałbym zwrócić uwagę na jeszcze ważną rzecz. Bardzo istotne są też działania legislacyjne, czy też wymogi prawne, które wymagałyby chociaż nakładania znaków wodnych w generowanych treściach. To w pewnym stopniu pozwoliłoby ograniczyć dystrybucję takich treści. Na niektórych dostawcach contentu wymusiłoby obowiązek publikowania informacji, która byłaby łatwa do sprawdzenia, że ta treść jest wyprodukowana w sposób nienaturalny, komputerowo przez sztuczną inteligencję.

Dlaczego ci, którzy chcą nas bronić przed deep fakes są zawsze trzy kroki za tymi, którzy chcą nas za pomocą głosu oszukiwać?

Jeśli chodzi o kwestię przygotowywania deep fakes, to mając dostępne rozwiązania, które są już obecne na rynku, tak naprawdę nie trzeba wielkich pieniędzy ani nawet jakiejś specjalistycznej wiedzy, żeby takie treści przygotować. Wystarczą odpowiednie aplikacje na nasze smartfony, próbka głosu czyjejś osoby, nawet kilkunastusekundowa i możemy z powodzeniem przygotować całkiem dobrej jakości nagranie. To są dostępne narzędzia, których każdy z nas może użyć.

Tak jak wspominałem, jedną z metod generowania deep fakes jest rywalizacja pomiędzy dwoma sieciami neuronowymi. Jeżeli ta sieć neuronowa, która odpowiada za wygenerowanie treści, jest trenowana, jest jakby udoskonalana przez drugą sieć neuronową, która ma za zadanie dyskryminację jej rezultatów, to zmniejsza możliwość detekcji w przyszłości tego, że jest to wygenerowana treść. Czyli – używamy sztucznej inteligencji do uczenia sztucznej inteligencji. to powoduje, że użycie w przyszłości sztucznej inteligencji do detekcji deep fakes może być bardzo, bardzo trudne.

Jan Szajda

Współwłaściciel oraz CEO w IDENTT – spółce oferującej rozwiązania w zakresie weryfikacji dokumentów oraz tożsamości przy wykorzystaniu nowoczesnych technologii, w tym Deep Learning. Głównymi obszarami zainteresowania są: bezpieczeństwo informacji oraz usługi zaufania, w szczególności elektroniczne metody uwierzytelniania i autoryzacji, także z wykorzystaniem biometrii.

Czytaj także: