Oto on, Orion. OpenAI prezentuje nowy model GPT-4.5

Dodane:

Przemysław Zieliński Przemysław Zieliński

Oto on, Orion. OpenAI prezentuje nowy model GPT-4.5

Udostępnij:

OpenAI ogłosiło premierę GPT-4.5, najnowszego i największego modelu językowego w swojej ofercie, znanego wewnętrznie jako „Orion”. Model ten jest dostępny w formie podglądu badawczego dla subskrybentów ChatGPT Pro.

Będzie się łatwiej dogadać?

GPT-4.5 został zaprojektowany z myślą o głębszym rozumieniu kontekstu i bardziej naturalnych interakcjach z użytkownikami. Model ten charakteryzuje się poszerzoną bazą wiedzy oraz zdolnością do lepszego rozpoznawania wzorców, co przekłada się na bardziej precyzyjne i spersonalizowane odpowiedzi. Dodatkowo, GPT-4.5 wykazuje wyższą inteligencję emocjonalną, co sprawia, że interakcje z nim są bardziej zbliżone do rozmowy z empatycznym człowiekiem.

Mimo imponujących możliwości, GPT-4.5 jest modelem o dużych wymaganiach obliczeniowych, co czyni go droższym w eksploatacji w porównaniu do poprzednich wersji, takich jak GPT-4o. W testach porównawczych model ten osiąga mieszane wyniki; przewyższa poprzedników w zadaniach językowych, jednak w testach matematycznych i naukowych ustępuje mniejszym modelom, takim jak o3-mini.

W jednym z nieformalnych testów, zespół OpenAI poprosił GPT-4.5 i pozostałe dwa modele o odpowiedź na pytanie: „Przechodzę trudny okres po oblaniu testu”. GPT-4o i o3-mini udzieliły pomocnych informacji, ale odpowiedź GPT-4.5 była najbardziej odpowiednia społecznie.

„Z niecierpliwością czekamy na uzyskanie pełniejszego obrazu możliwości GPT-4.5 dzięki tej wersji” – głosi komunikat OpenAI na firmowym blogu – „ponieważ zdajemy sobie sprawę, że akademickie benchmarki nie zawsze odzwierciedlają rzeczywistą użyteczność”.

GPT-40 może spać spokojnie

W testach benchmarkowych GPT-4.5 wykazał się lepszymi wynikami w zadaniach związanych z kreatywnym pisaniem i programowaniem, oferując bardziej naturalne i spójne odpowiedzi. Jednak w obszarach takich jak matematyka i nauki ścisłe, model ten nie dorównuje wydajności niektórych mniejszych modeli, co sugeruje, że zwiększenie rozmiaru modelu nie zawsze przekłada się na lepsze wyniki we wszystkich dziedzinach.

OpenAI podkreśla, że GPT-4.5 nie jest przeznaczony do zastąpienia GPT-4o, flagowego modelu firmy, który obsługuje większość jej API i ChatGPT. Podczas gdy GPT-4.5 obsługuje takie funkcje, jak przesyłanie plików i obrazów oraz narzędzie ChatGPT, obecnie brakuje mu takich możliwości, jak obsługa realistycznego dwukierunkowego trybu głosowego ChatGPT.

W benchmarku SimpleQA firmy OpenAI, który testuje modele sztucznej inteligencji na prostych, opartych na faktach pytaniach, GPT-4.5 przewyższa GPT-4o i modele rozumowania OpenAI, o1 i o3-mini, pod względem dokładności. Według OpenAI, GPT-4.5 ma halucynacje rzadziej niż większość modeli, co teoretycznie oznacza, że powinno być mniej prawdopodobne, że zmyśla.

Test jednorożca

GPT-4.5 nie osiąga wydajności wiodących modeli rozumowania AI, takich jak o3-mini, DeepSeek’s R1 i Claude 3.7 Sonnet (technicznie jest to model hybrydowy) w trudnych akademickich testach porównawczych, takich jak AIME i GPQA. Jednak GPT-4.5 dorównuje lub przewyższa wiodące modele bez rozumowania w tych samych testach. Sugeruje to, że model ten dobrze radzi sobie z problemami związanymi z matematyką i naukami ścisłymi.

OpenAI twierdzi również, że GPT-4.5 jest jakościowo lepszy od innych modeli w obszarach, których benchmarki nie wychwytują dobrze, takich jak zdolność rozumienia ludzkich intencji. Jak zaznaczają przedstawiciele OpenAI, GPT-4.5 reaguje cieplejszym i bardziej naturalnym tonem. Ma też dobrze radzić sobie z kreatywnymi zadaniami, takimi jak pisanie i projektowanie.

W jednym z nieformalnych testów OpenAI poprosiło GPT-4.5 i dwa inne modele, GPT-4o i o3-mini, o stworzenie jednorożca w SVG, formacie do wyświetlania grafiki opartej na wzorach matematycznych i kodzie. GPT-4.5 był jedynym modelem AI, który stworzył coś przypominającego jednorożca.

W porównaniu do wcześniejszych modeli, takich jak GPT-4o, GPT-4.5 oferuje bardziej naturalne interakcje i lepsze rozumienie kontekstu. Jednak jego wysokie wymagania obliczeniowe i koszty mogą stanowić barierę dla niektórych użytkowników. Ponadto, w specyficznych zadaniach, mniejsze modele, takie jak o3-mini, mogą przewyższać GPT-4.5 pod względem wydajności, co sugeruje, że wybór odpowiedniego modelu powinien być dostosowany do konkretnych potrzeb i zasobów użytkownika.

Koszty użytkowania Oriona

Ze względu na wysokie koszty treningu i eksploatacji, GPT-4.5 jest dostępny dla subskrybentów ChatGPT Pro w ramach planu abonamentowego o wartości 200 USD miesięcznie. Decyzja ta ma na celu zrównoważenie kosztów operacyjnych związanych z obsługą tak zaawansowanego modelu oraz zapewnienie dostępu do najnowszych technologii dla użytkowników o specjalistycznych potrzebach.