ACK Cyfronet AGH, NAC, NASK i SpeakLeash stworzą polskie modele AI nowej generacji

Dodane:

Informacja prasowa Informacja prasowa

ACK Cyfronet AGH, NAC, NASK i SpeakLeash stworzą polskie modele AI nowej generacji

Udostępnij:

ACK Cyfronet AGH, Narodowe Archiwum Cyfrowe (NAC), NASK oraz projekt SpeakLeash rozpoczęły współpracę, w ramach której wspólnie chcą wykorzystać zasoby archiwalne NAC – miliony zdjęć, map i skanów – by stworzyć nowoczesne zestawy danych potrzebne do trenowania zaawansowanych modeli AI.

W Polsce powstały już dwa duże modele językowe (LLM – Large Language Models): Bielik.AI, rozwijany przede wszystkim z myślą o środowisku biznesowym, oraz PLLuM, którego głównymi użytkownikami mają być instytucje publiczne i administracja. Oba potrafią analizować i generować tekst, wspierać w pracy z dokumentami czy ułatwiać wyszukiwanie informacji.

To jednak dopiero początek drogi. Przyszłość należy do modeli multimodalnych, czyli takich, które potrafią jednocześnie rozumieć różne rodzaje danych – tekst, obraz, dźwięk czy wideo. W tej grupie znajdują się m.in. VLM (Vision-Language Models), łączące język i obraz. Dzięki nim komputer może nie tylko przeczytać tekst, ale też zrozumieć, co przedstawia zdjęcie, opisać je słowami, a nawet odpowiedzieć na pytania dotyczące ilustracji czy mapy.

Czytaj również:

Trening nowych modeli językowych i multimodalnych

Żeby jednak takie modele powstały, potrzebne są ogromne, starannie opisane zbiory danych. I właśnie tutaj kluczową rolę odgrywa Narodowe Archiwum Cyfrowe, które gromadzi petabajty zdigitalizowanych zasobów – fotografii, dokumentów, map i skanów. Dzięki współpracy z Cyfronetem, NASK i SpeakLeash archiwa te będą mogły być udostępniane i opracowywane w taki sposób, aby stały się fundamentem badań nad sztuczną inteligencją w Polsce. To pozwoli na budowę ekosystemu danych multimodalnych, prowadzenie pierwszych projektów badawczo-rozwojowych, a także trening nowych modeli językowych i multimodalnych. Z czasem mogą powstać narzędzia, które ułatwią obywatelom dostęp do zasobów kultury i historii, czyniąc archiwa cyfrowe bardziej użytecznymi i dostępnymi niż kiedykolwiek wcześniej.

Co ważne, ta inicjatywa nie ogranicza się wyłącznie do aspektów technologicznych. SpeakLeash, wspólnie z Cyfronetem, już dziś prowadzi projekt Obywatel Bielik – pierwszą w Polsce inicjatywę crowdsourcingową, w której każdy może włączyć się w budowanie przyszłości AI. Obywatele przesyłają własne zdjęcia i pomagają je opisywać, współtworząc w ten sposób dane potrzebne do treningu modeli multimodalnych.

Te doświadczenia i mechanizmy partycypacyjne zostaną teraz włączone także do działań konsorcjum z udziałem NAC i NASK. Oznacza to, że rozwój polskiej sztucznej inteligencji będzie odbywał się nie tylko w laboratoriach badawczych i centrach danych, lecz również przy aktywnym udziale obywateli.

Czytaj również: