Według Muska rozwiązaniem może być wykorzystanie danych syntetycznych, choć ta metoda budzi kontrowersje.
– Stało się to w zasadzie w zeszłym roku – powiedział Elon Musk podczas transmisji na platformie X. Nawiązał do koncepcji „szczytu danych” przedstawionej przez Ilję Sutskevera, głównego naukowca OpenAI, podczas konferencji NeurlPS w grudniu.
Eksperci branżowi przewidują, że brak rzeczywistych danych zmusi firmy do zmiany podejścia w opracowaniu modeli. Musk wskazał, że dane syntetyczne, generowane przez same modele AI, mogą stać się kluczowym narzędziem w dalszym rozwoju tej technologii. Jego zdaniem sztuczna inteligencja mogłaby oceniać swoje wyniki i doskonaliś się dzięki procesowi samouczenia się.
To nie nowy koncept
Firmy takie jak Microsoft, Meta, OpenAI i Anthropic korzystają już z danych syntetycznych w szkoleniu swoich modeli.
Gartner przewiduje, że w 2024 roku aż 60% danych wykorzystywanych w projektach AI miała charakter syntetyczny. Przykładem może być model Phi-4 od Microsoftu, który powstał dzięki połączeniu danych rzeczywistych i syntetycznych.
Podobnie Google, które zastosowało takie podejście przy tworzeniu modeli Gemma, Meta zaś wykorzystała sztucznie wygenerowane dane do udoskonalenia serii modeli Llama.
Zalety wykorzystywania danych syntetycznych
Zaletą trenowania na syntetycznych danych jest przede wszystkim niższy koszt. Startup AI Writer ujawnił, że opracowanie jego modelu Palmyra X 004, bazującego niemal całkowicie na danych syntetycznych, wyniosło jedynie 700 000 USD. Dla porównania, szacowany koszt stworzenia modelu OpenAI o podobnej wielkości to 4,6 miliona USD.
Wady wykorzystywania danych syntetycznych
Jednak wykorzystanie danych syntetycznych nie jest pozbawione wad. Badania wskazują, że takie podejście może prowadzić do tzw. „załamania modelu”, gdzie systemy stają się mniej kreatywne i bardziej stronnicze. Jeśli dane treningowe mają wbudowane uprzedzenia, wyniki generowane przez modele będą również obciążone tymi ograniczeniami, co może zagrozić funkcjonalności sztucznej inteligencji w praktyce.
Przyszłość sztucznej inteligencji wydaje się zmierzać w kierunku coraz większej zależności od danych syntetycznych.