W badaniu wykorzystano specjalne przygotowaną wersje gry, działającą w emulatorze i zintegrowaną z frameworkiem GamingAgent. System ten przekazywał AI podstawowe instrukcje, takie jak unikanie przeszkód, skakanie oraz zrzuty ekranu z gry. Modele AI przetwarzały te informacje i generowały polecenia sterujące Mario za pomocą kodu Pythona. Najlepiej w tym zadaniu poradził sobie modele Claude 3,7 firmy Antrophic, wyprzedzając swojego poprzednika Claude 3,5. Modele Gemini 1.5 Pro od Google oraz GPT-4o od OpenAI napotkały na większe trudności.
Czas reakcji
Badacze zwrócili uwagę na to, że kluczowym problemem dla modeli rozumujących był czas rekacji. Ponieważ ich proces decyzyjny trwa zazwyczaj kilka sekund, w dynamicznych grach prowadzi to do błędów i przegrywania kolejnych poziomów. W grach zręcznościowych każda sekunda ma znaczenie, a opóźnienia w podejmowaniu decyzji często skutkują porażką.
Gry komputerowe od dawna są wykorzystywane jako narzędzie do testowania AI. Jednak niektórzy eksperci podważają ich wartość jako miarodajnego sprawdzianu dla postępu technologicznego. Wskazują oni, że w przeciwieństwie do rzeczywistego świata, gry są bardziej abstrakcyjne i przewidywalne, a AI może być trenowana na ogromnych ilościach danych dostępnych w ramach danej rozgrywki.