Orzeł wylądował: Bielik-7B-v0.1 polskim modelem językowym LLM. Stworzył go zespół SpeakLeash

Dodane:

Przemysław Zieliński Przemysław Zieliński

Orzeł wylądował: Bielik-7B-v0.1 polskim modelem językowym LLM. Stworzył go zespół SpeakLeash

Udostępnij:

Bielik 7B jest modelem generatywnym opartym na architekturze swojego starszego brata, czyli modelu Mistral-7B-v0.1, a do jego stworzenia użyto ponad 70 miliardów tokenów. Jak deklarują jego twórcy, zespół SpeakLeash, dokumenty źródłowe przed tokenizacją zostały dokładnie przeanalizowane przez specjalnie do tego stworzony model kontroli jakości. W rezultacie możliwe było wyselekcjonowanie najlepszych dostępnych tekstów.

Jak poinformowali twórcy na swoim profilu LinkedIn, Bielik-7B-v0.1 to rezultat mariażu projektu open-science/open-source i świata nauki z „olbrzymią mocą obliczeniową”.

O tym, jak działa Bielik, najlepiej jest przekonać się osobiście, korzystając z wersji demo dostępnej tutaj.

„Kiedy ruszyliśmy z projektem nasz celu wydawał się bardzo odległy, niektórzy twierdzili, że wręcz niemożliwy. Przez ten rok nie tylko sformalizowaliśmy naszą organizację jako fundację, ale przede wszystkim udało nam się zebrać aż 837,45 GBdanych, znaczy to, że jesteśmy już bardzo blisko docelowego 1TB! Warto zaznaczyć, że tworzymy w tym momencie największy na świecie (lub jeden z największych) zestawów danych tekstowych w jednym języku rozwijany w modelu open-science. Dodatkowo stawiamy nie tylko na ilość danych, ale też na ich jakość” – tak kilka tygodni temu zespół SpeakLeash podsumowywał swoją działalność w 2023 roku.

Czytaj także: