Cyfrowa suwerenność Europy: TildeLM daje głos językom ignorowanym przez AI

Większość LLM ignoruje języki bałtyckie i wschodnioeuropejskie. Dlatego powstał TildeLM – jego celem jest obsługa 250 mln Europejczyków, których języki są ignorowane przez główny nurt AI.

Brak cyfrowej równości

Europa ma 24 oficjalne języki oraz ponad 80 języków używanych na całym kontynencie. Komercyjne modele (np. ChatGPT, Claude) są trenowane głównie na języku angielskim i innych głównych językach, a w przypadku mniejszych języków wiele z nich ma ograniczoną reprezentację cyfrową, zwłaszcza mniejsze lub regionalne języki, takie jak łotewski, kataloński czy baskijski – nimi posługuje się 250 milionów Europejczyków.

Modele takie jak ChatGPT i DeepSeek mają problemy nie tylko z różnorodnością językową, ale także z rozpoznawaniem lokalnego kontekstu.

– Modele często popełniają podstawowe błędy, takie jak generowanie wymyślonych słów lub nie radzą sobie z niuansami gramatycznymi, zwłaszcza w językach z przypadkami gramatycznymi zależnymi od płci lub elastycznym szykiem wyrazów, jak łotewski, polski czy rosyjski – mówi Toms Bergmanis, badacz w Tilde, cytowany w rozmowie z tech.eu.

Większość tych modeli jest hostowana poza UE — w USA lub Chinach — co budzi obawy dotyczące suwerenności i prywatności danych. Rządy nie mogą po prostu wysyłać wrażliwych dokumentów za granicę w celu ich przetwarzania.

TildeLM – open-source uszyty dla języków bałtyckich i wschodnioeuropejskich

To LLM z ponad 30 miliardami parametrów, zrodzony w krajach bałtyckich dla niedocenianych języków Europy. TildeLM ma umożliwiać zarówno firmom, jak i rządom tworzenie rozwiązań AI, które naprawdę rozumieją i odzwierciedlają językową i kulturową różnorodność Europy. Oferuje spersonalizowane rozwiązania AI dostosowane do konkretnych branż, przepływów pracy i języków, od wirtualnych asystentów i bezpiecznych tłumaczeń po technologie mowy i nie tylko.

Dla rządów i instytucji publicznych jest to platforma do rozwijania narodowych modeli językowych, które promują cyfrową suwerenność, wspierają usługi publiczne i zapewniają włączenie wszystkich oficjalnych języków UE – jak podaje serwis tech.eu.

Projekt zyskał ogromne wsparcie instytucjonalne. Tilde zostało zwycięzcą konkursu LARGE AI GRAND CHALLENGE, co zapewniło firmie dostęp do 2 milionów godzin pracy procesorów graficznych (GPU) na czołowych europejskich superkomputerach – LUMI i Leonardo – oraz współpracę z niemieckim systemem eksaskalowym JUPITER.

TildeLM zakończyło swoje podstawowe szkolenie i aktualnie jest gotowe do precyzyjnego dostrajania z zastosowaniami takimi jak tłumaczenie kontekstowe i odpowiadanie na pytania na podstawie dokumentów.

– Ten projekt jest dla nas po części emocjonalny. Pochodząc z krajów bałtyckich, wiele dla nas znaczy budowanie narzędzi, które wspierają nasze własne języki i języki naszych sąsiadów.

– Europa zasługuje na technologię językową, która odzwierciedla jej różnorodność, a nie tylko na narzędzia, które najlepiej działają w języku angielskim – podsumowuje Toms Bergmanis, badacz w Tilde, cytowany w rozmowie z tech.eu.

Cyfrowa suwerenność Europy: TildeLM daje głos językom ignorowanym przez AI

Brak cyfrowej równości

TildeLM – open-source uszyty dla języków bałtyckich i wschodnioeuropejskich

Czytaj także:

Mam Startup

Nie przegap

Cyfrowa suwerenność Europy: TildeLM daje głos językom ignorowanym przez AI

Brak cyfrowej równości

TildeLM – open-source uszyty dla języków bałtyckich i wschodnioeuropejskich

Czytaj także:

Mam Startup

Nie przegap

Sukcesy, inwestycje, pivoty i porażki. Polski rynek startupów w jednym e-mailu