Dzięki ich pracy możliwe stało się drastyczne zwiększenie głębokości sieci neuronowych – z zaledwie kilku do aż tysiąca warstw. Osiągnięcie to zostało docenione na najważniejszym światowym forum poświęconym AI – konferencji NeurIPS.
Przez długi czas modele uczenia ze wzmocnieniem (RL) były ograniczone do bardzo płytkich sieci neuronowych, składających się zaledwie z 2-5 warstw. Każda próba dodania kolejnych kończyła się niepowodzeniem – algorytm przestawał się uczyć, a cały proces treningu zawodził. W środowisku naukowym utrwaliło się przekonanie, że taka jest natura modeli RL i tego limitu po prostu nie da się przekroczyć.
Jak zrobili to naukowcy?
Zamiast kilku warstw, metoda opracowana przez Polaków pozwala na zbudowanie modeli mających ich nawet 1000. To duża zmiana, ponieważ każda dodatkowa warstwa pozwala modelowi na bardziej zaawansowane przetwarzanie informacji. Głębsze sieci są w stanie uczyć się znacznie bardziej skomplikowanych koncepcji i budować bogatszą, pełniejszą reprezentację otaczającego je świata, zanim podejmą działanie.
Klucz do rozwiązania leżał w zupełnie innej dziedzinie
Przełom nie był wynikiem drobnego ulepszenia istniejących metod RL. Rozwiązanie przyszło z zupełnie niespodziewanej strony – z innej gałęzi uczenia maszynowego, znanej jako uczenie samonadzorowane (Self-Supervised Learning, SSL).
Kluczową techniką okazały się tzw. zadania pretekstowe (pretext tasks). Zmuszają one model, by najpierw nauczył się rozumieć wewnętrzną strukturę danych, z którymi pracuje, zanim jeszcze zacznie szukać ostatecznego rozwiązania problemu. To podejście jest doskonale znane z procesu przygotowania dużych modeli językowych, gdzie stanowi ono pierwszy, kluczowy etap tzw. pretreningu. Zastosowanie go w RL okazało się strzałem w dziesiątkę.
Polscy naukowcy są w centrum tego światowego sukcesu
Za tym globalnym osiągnięciem stoją konkretne nazwiska z polskiego środowiska naukowego. Są to doktorant Michał Bortkiewicz oraz prof. Tomasz Trzciński z Politechniki Warszawskiej, którzy pracowali w zespole kierowanym przez prof. Benjamina Eysenbacha z Princeton.
Na NeurIPS (Neural Information Processing Systems) – najbardziej renomowaną konferencję naukową poświęconą AI – nadesłano w tym roku ponad 20 000 prac z całego świata. Z tej ogromnej puli zaakceptowano zaledwie około 5 000, co samo w sobie jest już dowodem najwyższej jakości. A spośród tej elitarnej grupy, praca polskiego zespołu została wybrana jako jedna z pięciu najlepszych, zdobywając prestiżową nagrodę. Słowa prof. Trzcińskiego doskonale podsumowują znaczenie kwestionowania utartych schematów:
– Nasze badania pokazują, że warto kwestionować utarte szlaki i myśleć „outside the box”. Nawet w Polsce, gdzie finansowanie nauki i badań podstawowych nie jest wystarczające, czy porównywalne do innych krajów rozwiniętych, można zadawać trafne pytania i kwestionować status quo, aby zmienić świat i odkrywać rzeczy, na które nikt do tej pory nie wpadł – mówi prof. Tomasz Trzciński z Politechniki Warszawskiej, cytowany w serwisie wnp.pl.
Potencjalne zastosowania są trudne do wyobrażenia
Aby zrozumieć skalę potencjalnych zastosowań, warto przypomnieć, do czego zdolne były „stare”, płytkie modele RL. To właśnie one stały za sukcesem AlphaGo, które pokonało mistrza świata w Go, oraz dominowały w skomplikowanych grach wideo, takich jak Dota. Już wtedy były wykorzystywane do przeszukiwania gigantycznych przestrzeni rozwiązań w celu znajdowania nowych leków, projektowania syntezy białek czy wspierania decyzji ekonomicznych.
Teraz, dzięki nowej metodzie, dysponujemy modelami, które są setki razy głębsze. Otwiera to drogę do rozwiązywania problemów o niewyobrażalnej dotąd złożoności. Skoro już nawet stare modele RL – o kilku warstwach – zdołały wypracować strategię wygrania z człowiekiem w grę Go i szukają coraz lepszych leków, to co będą w stanie zrobić te, które mają 1000 warstw i przeskakują przez labirynt?