Brak cyfrowej równości
Europa ma 24 oficjalne języki oraz ponad 80 języków używanych na całym kontynencie. Komercyjne modele (np. ChatGPT, Claude) są trenowane głównie na języku angielskim i innych głównych językach, a w przypadku mniejszych języków wiele z nich ma ograniczoną reprezentację cyfrową, zwłaszcza mniejsze lub regionalne języki, takie jak łotewski, kataloński czy baskijski – nimi posługuje się 250 milionów Europejczyków.
Modele takie jak ChatGPT i DeepSeek mają problemy nie tylko z różnorodnością językową, ale także z rozpoznawaniem lokalnego kontekstu.
– Modele często popełniają podstawowe błędy, takie jak generowanie wymyślonych słów lub nie radzą sobie z niuansami gramatycznymi, zwłaszcza w językach z przypadkami gramatycznymi zależnymi od płci lub elastycznym szykiem wyrazów, jak łotewski, polski czy rosyjski – mówi Toms Bergmanis, badacz w Tilde, cytowany w rozmowie z tech.eu.
Większość tych modeli jest hostowana poza UE — w USA lub Chinach — co budzi obawy dotyczące suwerenności i prywatności danych. Rządy nie mogą po prostu wysyłać wrażliwych dokumentów za granicę w celu ich przetwarzania.
TildeLM – open-source uszyty dla języków bałtyckich i wschodnioeuropejskich
To LLM z ponad 30 miliardami parametrów, zrodzony w krajach bałtyckich dla niedocenianych języków Europy. TildeLM ma umożliwiać zarówno firmom, jak i rządom tworzenie rozwiązań AI, które naprawdę rozumieją i odzwierciedlają językową i kulturową różnorodność Europy. Oferuje spersonalizowane rozwiązania AI dostosowane do konkretnych branż, przepływów pracy i języków, od wirtualnych asystentów i bezpiecznych tłumaczeń po technologie mowy i nie tylko.
Dla rządów i instytucji publicznych jest to platforma do rozwijania narodowych modeli językowych, które promują cyfrową suwerenność, wspierają usługi publiczne i zapewniają włączenie wszystkich oficjalnych języków UE – jak podaje serwis tech.eu.
Projekt zyskał ogromne wsparcie instytucjonalne. Tilde zostało zwycięzcą konkursu LARGE AI GRAND CHALLENGE, co zapewniło firmie dostęp do 2 milionów godzin pracy procesorów graficznych (GPU) na czołowych europejskich superkomputerach – LUMI i Leonardo – oraz współpracę z niemieckim systemem eksaskalowym JUPITER.
TildeLM zakończyło swoje podstawowe szkolenie i aktualnie jest gotowe do precyzyjnego dostrajania z zastosowaniami takimi jak tłumaczenie kontekstowe i odpowiadanie na pytania na podstawie dokumentów.
– Ten projekt jest dla nas po części emocjonalny. Pochodząc z krajów bałtyckich, wiele dla nas znaczy budowanie narzędzi, które wspierają nasze własne języki i języki naszych sąsiadów.
– Europa zasługuje na technologię językową, która odzwierciedla jej różnorodność, a nie tylko na narzędzia, które najlepiej działają w języku angielskim – podsumowuje Toms Bergmanis, badacz w Tilde, cytowany w rozmowie z tech.eu.