W kilka kroków do nauki gestów
Standardowa procedura dla metod SLP opartych na głębokim uczeniu obejmuje kilka kroków. Najpierw tekst jest tłumaczony na język migowy, na co składają się przede wszystkim gesty dłoni. Język ten jest następnie wykorzystywany do generowania wideo naśladującego język migowy. Powstałe wideo jest dalej przetwarzane w celu stworzenia w miarę realistycznych awatarów wideo, mających wyglądać jak ludzie. I to właśnie złożoność tych procesów sprawia, że pozyskiwanie i przetwarzanie danych w języku migowym stanowi tak duże wyzwanie.
W ciągu ostatniej dekady większość badań zmagała się z wyzwaniami związanymi ze zbiorem danych niemieckiego języka migowego (GSL) o nazwie PHOENIX14T i innymi mniej znanymi zbiorami danych językowych. Prowadzone prace obejmowały m.in. rozpoznawanie i tłumaczenie języka migowego (SLP, SLR i SLT). Trudności, na które natknęli się badacze – w tym brak ustandaryzowanych narzędzi i powolny postęp w badaniach nad językami – znacznie osłabiły entuzjazm wielu zespołów. Dla pełnego obrazu trzeba jeszcze dodać, że badania wykorzystujące zbiór danych Amerykańskiego Języka Migowego (ASL) są wciąż w powijakach.
Postęp jest, problemy także
Wypracowane i dostępne dzisiaj zestawy danych sprawiły, że poczyniono znaczne postępy w pracach nad nowym modelem. Wciąż jednak pojawiały się nowe wyzwania:
- istniejące zbiory danych czasami zawierają pliki w skomplikowanych formach, takich jak obrazy, skrypty, punkty kluczowe szkieletu OpenPose, wykresy i być może inne formaty używane do wstępnego przetwarzania. W tych formach nie ma danych, które można bezpośrednio trenować.
Ręczne dodawanie adnotacji do glos jest żmudnym i czasochłonnym procesem; - po uzyskaniu kilku zestawów danych wideo migowego od ekspertów języka migowego, dane są przekształcane w różne formy, co bardzo utrudnia rozszerzenie zestawu danych.
Prompt2Sign, czyli punkt wyjścia
Naukowcy z Rutgers University, Australian National University, Data61/CSIRO, Carnegie Mellon University, University of Texas at Dallas i University of Central Florida zaprezentowali Prompt2Sign. To nowy zbiór danych, który śledzi ruchy górnej części ciała demonstratorów języka migowego w szerokiej perspektywie. Jak twierdzą twórcy rozwiązania, to znaczący krok naprzód w dziedzinie wielojęzycznego rozpoznawania i generowania języka migowego. W ich opinii to pierwszy kompleksowy zbiór danych łączący osiem różnych języków migowych i wykorzystujący publicznie dostępne filmy online i zbiory danych w celu wyeliminowania niedociągnięć wcześniejszych wysiłków.
Naukowcy rozpoczęli od standaryzacji informacji o postawie klatek wideo (oryginalnego materiału narzędzia) do wstępnie ustawionego formatu za pomocą OpenPose, aplikacji do przetwarzania wideo. To pozwoliło im skonstruować zbiór danych. Zmniejszenie nadmiarowości i ułatwienie treningu z modelami seq2seq i text2text udało się osiągnąć poprzez przechowywanie kluczowych informacji w ich znormalizowanym formacie. Następnie, aby było to bardziej opłacalne, automatycznie generowane są słowa podpowiedzi, aby zminimalizować konieczność uzupełniania ich przez ludzi. Wreszcie, aby rozwiązać problemy związane z ręcznym przetwarzaniem wstępnym i gromadzeniem danych, zwiększono poziom automatyzacji przetwarzania narzędzi. Poprawiło to możliwości przetwarzania danych bez konieczności dalszego ładowania modeli.
SignLLM – wielojęzyczny model 8 różnych języków migowych
Zespół podkreśla, że obecny model zyskałby dzięki kilku poprawkom, ponieważ nowe zestawy danych stanowią różne przeszkody podczas trenowania modeli. Ze względu na różnice w języku migowym w zależności od kraju, nie jest możliwe jednoczesne trenowanie kilku zestawów danych języka migowego. Zarządzanie dodatkowymi językami i większymi zbiorami danych sprawia, że szkolenie jest bardziej złożone i czasochłonne, przez co pobieranie, przechowywanie i ładowanie danych jest bardziej uciążliwe. Dlatego też niezbędne jest zbadanie technik szkolenia przy dużych prędkościach. Ponadto ważne jest, aby zbadać niedostatecznie zbadane tematy, takie jak wielojęzyczne SLP, wydajne szkolenie i zdolność rozumienia podpowiedzi, ponieważ obecna struktura modelu nie jest w stanie zrozumieć większej liczby języków i bardziej skomplikowanych, naturalnych ludzkich danych wejściowych do konwersacji. Dotyczy to takich kwestii, jak poprawa zdolności generalizacji dużego modelu i podstawowej zdolności rozumienia podpowiedzi.
Aby sprostać tym wyzwaniom, zespół zaprezentował SignLLM, początkowy wielojęzyczny model SLP na dużą skalę, zbudowany na zbiorze danych Prompt2Sign. Generuje on szkieletowe pozy ośmiu różnych języków migowych na podstawie tekstów lub sugestii. Istnieją dwa inne tryby dla SignLLM:
- Multi-Language Switching Framework (MLSF), który dynamicznie dodaje grupy koderów-dekoderów do generowania wielu języków migowych w tandemie;
- moduł Prompt2LangGloss umożliwia SignLLM generowanie statycznych par koder-dekoder.
Celem zespołu jest wykorzystanie nowego zbioru danych do ustanowienia standardu wielojęzycznego rozpoznawania i generowania. Najnowsza funkcja zawiera nowatorski moduł oparty na idei pogłębionego uczenia. Ma to przyspieszyć szkolenie modelu na większej liczbie języków i większych zbiorach danych, rozwiązując w ten sposób wydłużony czas szkolenia spowodowany tymi czynnikami. Przeprowadzono dużą liczbę testów i badań ablacyjnych. Wyniki dowodzą, że SignLLM przewyższa metody bazowe zarówno w zestawach rozwojowych, jak i testowych dla łącznie ośmiu języków migowych.
I co dalej?
Mimo że ich praca poczyniła ogromne postępy w automatyzacji przetwarzania i przechwytywania danych w języku migowym, nadal musi zapewniać kompleksowe, kompleksowe rozwiązanie. Na przykład zespół podkreśla, że aby wykorzystać swój prywatny zestaw danych, należy użyć OpenPose do wyodrębnienia plików json punktów kluczowych 2D, a następnie zaktualizować je ręcznie.
Źródło: SignLLM: A Multilingual Sign Language Model that can Generate Sign Language Gestures from Input Text, Dhanshree Shripad Shenwai