Transkrypcja totalna? ElevenLabs prezentuje Scribe obsługujący 99 języków z precyzją 96,7%

Dodane:

Przemysław Zieliński Przemysław Zieliński

Transkrypcja totalna? ElevenLabs prezentuje Scribe obsługujący 99 języków z precyzją 96,7%

Udostępnij:

ElevenLabs prezentuje Scribe — model przekształcający mowę na tekst. Scribe osiąga 96,7% dokładności dla języka angielskiego, przewyższając tym samym konkurencyjne modele, takie jak Gemini 2.0 Flash od Google czy Whisper v3 od OpenAI.

Scribe obsługuje 99 języków, w tym mniej popularne, takie jak serbski, kantoński czy malajalam, co czyni go narzędziem o szerokim zastosowaniu globalnym. Model oferuje funkcje takie jak diarizacja mówców, czyli rozróżnianie i oznaczanie poszczególnych osób w nagraniach wieloosobowych, oraz znaczniki czasowe na poziomie słów, umożliwiające precyzyjne śledzenie momentu wypowiedzi każdego słowa.

Jak wyglądają crash testy dla transkrypcji?

W testach benchmarkowych FLEURS i Common Voice Scribe osiągnął najniższe wskaźniki błędów transkrypcji dla wielu języków, w tym 98,7% dla włoskiego i 96,7% dla angielskiego. Model został zaprojektowany z myślą o radzeniu sobie z trudnościami rzeczywistych nagrań, takimi jak szumy tła czy obecność wielu mówców, zapewniając wysoką jakość transkrypcji nawet w trudnych warunkach akustycznych.

W porównaniu z innymi wiodącymi modelami, Scribe wykazał się wyższą dokładnością transkrypcji. W testach FLEURS osiągnął wskaźnik błędu słów (WER) na poziomie 3,4%, przewyższając Deepgram Nova 2 (6,9%), Gemini Flash 2 (4,2%) oraz Whisper Large v3 (4,7%).

Cena?

ElevenLabs udostępnia Scribe w konkurencyjnej cenie 0,40 USD za godzinę przetwarzanego audio, z 50% zniżką przez pierwsze sześć tygodni od premiery. Model jest dostępny poprzez stronę internetową ElevenLabs oraz API, co umożliwia łatwą integrację z istniejącymi systemami i aplikacjami. Ponadto, firma pracuje nad wersją o niskim opóźnieniu, która będzie odpowiednia do zastosowań w czasie rzeczywistym.