Nowa technika wykorzystuje systemy uczenia maszynowego do tworzenia w czasie rzeczywistym bardzo dokładnej mapy dłoni i wszystkich palców, przy użyciu wyłącznie smartfona i aparatu.
– Podczas gdy obecne najnowocześniejsze podejścia opierają się głównie na wydajnych środowiskach komputerowych, nasza metoda osiąga wydajność w czasie rzeczywistym na telefonie komórkowym. Niezawodna percepcja dłoni w czasie rzeczywistym jest zdecydowanie trudnym zadaniem, ponieważ ręce często drżą, a na ekranie nie widać całych dłoni – napisali w poście na blogu badacze Google Valentin Bazarevsky i Fan Zhang.
Co więcej, ruchy rąk są często za szybkie, lub zbyt subtelne, co utrudnia komputerowi wyłapanie ruchu w czasie rzeczywistym. Nawet w przypadku wielu kamer, czujniki głębokości, takie jak używane przez SignAll, mają problemy ze śledzeniem każdego ruchu.
W tym przypadku celem badaczy, przynajmniej częściowo, było ograniczenie ilości danych potrzebnych do analizowania przez algorytmy. Mniej danych oznacza szybszą realizację. Po pierwsze, porzucili pomysł, aby system wykrywał pozycję i rozmiar całej dłoni wraz z palcami. Zamiast tego wprowadzono system znajdujący środek dłoni, która jest kwadratowa. Oczywiście po rozpoznaniu dłoni palce wyrastają z jednego jej końca i można je analizować osobno. Oddzielny algorytm patrzy na obraz i przypisuje mu 21 współrzędnych.
Naukowcy by wykonać część rozpoznawania palców, musieli najpierw ręcznie dodać te 21 punktów do około 30 000 zdjęć dłoni w różnych pozach i sytuacjach oświetleniowych, aby system uczenia maszynowego mógł je pobierać i uczyć się z nich. Jak zwykle sztuczna inteligencja polega na ciężkiej ludzkiej pracy.
Po ustaleniu pozy ręki porównuje się ją do szeregu znanych gestów, od symboli języka migowego dla liter i cyfr po wyrazy. Rezultatem jest algorytm śledzenia ręki, który jest zarówno szybki, jak i dokładny, i działa na zwykłym smartfonie. Wszystko działa w ramach MediaPipe.
Polska wersja
Nad podobnym projektem pracował kilka lat temu polski startup Migam.pl. Jego twórcy stworzyli ko platformę komunikacyjną umożliwiającą tłumaczenia wszelkiego rodzaju treści na język migowy. Do tej pory udało się stworzyć i wdrożyć usługi tłumaczenia, szkolenia oraz działalność wydawniczą. Kolejnym krokiem miało być stworzenie aplikacji na telefony, korzystającej z technologii iTraff – rozpoznającej zdjęcia i wyświetlającej tłumaczenia treści w języku migowym.
– Pracujemy nad Translatorem Kinect, który będzie wykorzystywał kamery Kinecta do nauki i tłumaczenia tekstu na język migowy. Docelowo aplikacja pozwoli na dwustronne tłumaczenie – mówił Przemek Kuśmierek, współtwórcą Migam.pl.
W 2012 roku startup otrzymał od Microsoft wsparcie w wysokości 60 000 dolarów na dalszy rozwój. Migam.pl ma za sobą wiele sukcesów i wiele bardzo ważnych projektów związanych z językiem migowym. Jednak jak na razie nie pojawiły się nowe informacje dotyczące rozwoju aplikacji do rozpoznawania języka migowego.