Jak DeepSeek zmienia myślenie o AI?

Dodane:

MamStartup logo Mam Startup

Jak DeepSeek zmienia myślenie o AI?

Udostępnij:

Chiński model AI, DeepSeek, pokazuje, że zaawansowaną technologię można tworzyć z minimalnym zapotrzebowaniem na zasoby. Opracowany przez High-Flyer Quant model osiągnął poziom porównywalny z LLM od OpenAI czy Google, mimo, że wymagał jedynie nieznacznego zapotrzebowania na procesory graficzne. Czy to punkt zwrotny w wyścigu AI?

Efektywność kosztowa i model porównywalny z ChatGPT

High-Flyer Quant zdołało zakupić ponad 10 tys. procesorów graficznych Nvidia przed wprowadzenie zakazów eksportowych przez USA. Choć nieoficjalnie źródła podają, że w rzeczywistości wykorzystano 50 tys. GPU, liczba ta wciąż pozstaje ułamkiem tego, co stosują firmy, takie jak OpenAI – w tym przypadku model wykorzystuje ponad 500 tys. procesorów graficznych. Kluczowym elementem wyróżniającym DeepSeek jest zatem efektywność kosztowa.

Model szybko zdobył popularność na platformie HuggingFace, osiągając ponad 100 tys. pobrań w krótkim czasie. Przez niektórych jest to odczytywane jako polityczny sygnał, że amerykańskie ograniczenia mogą nie wystarczyć, aby zahamować rozwój chińskiej sztucznej inteligencji.

Jak to działa?

Model działa na zasadzie uproszczonej precyzji obliczeń, korzystając z 8-bitowych liczb zamiast standardowych 32-bitowych. Ten zabieg pozwolił na oszczędzenie 75% pamięci, bez straty na dokładności wyników.

Model wykorzystuje metodę przetwarzania wielofazowego, co pozwala na analizowanie całych fragmentów jednocześnie. Dzięki temu DeepSeek ma działać dwukrotnie szybciej i zużywać 90% mniej energii w porównaniu z tradycyjnymi modelami.

Jeżeli zaś chodzi o system ekspercki, ten zamiast aktywować wszystkie części modelu jednocześnie, włącza jedynie te segmenty, które są potrzebne do konkretnego zadania. Dzięki temu aktywowanych jest jedynie 37 miliardów parametrów, zamiast 1,8 miliona.

Co za tym idzie?

Koszty trenowania modeli spadły ze 100 milionów dolarów do zaledwie 5 milionów, a liczba wymaganych procesorów zmniejszyła się ze 100 tysięcy do 2 tysięcy. Wykorzystano również gamingowe GPU, zamiast kosztownych urządzeń klasy data center.

Dostępność tego rozwiązania w formule open-source otwiera drzwi dla mniejszych i większych firm oraz startupów, eliminując barierę finansową, która dotychczas ograniczała rozwój AI.

Czytaj także: