Scribe obsługuje 99 języków, w tym mniej popularne, takie jak serbski, kantoński czy malajalam, co czyni go narzędziem o szerokim zastosowaniu globalnym. Model oferuje funkcje takie jak diarizacja mówców, czyli rozróżnianie i oznaczanie poszczególnych osób w nagraniach wieloosobowych, oraz znaczniki czasowe na poziomie słów, umożliwiające precyzyjne śledzenie momentu wypowiedzi każdego słowa.
Jak wyglądają crash testy dla transkrypcji?
W testach benchmarkowych FLEURS i Common Voice Scribe osiągnął najniższe wskaźniki błędów transkrypcji dla wielu języków, w tym 98,7% dla włoskiego i 96,7% dla angielskiego. Model został zaprojektowany z myślą o radzeniu sobie z trudnościami rzeczywistych nagrań, takimi jak szumy tła czy obecność wielu mówców, zapewniając wysoką jakość transkrypcji nawet w trudnych warunkach akustycznych.
W porównaniu z innymi wiodącymi modelami, Scribe wykazał się wyższą dokładnością transkrypcji. W testach FLEURS osiągnął wskaźnik błędu słów (WER) na poziomie 3,4%, przewyższając Deepgram Nova 2 (6,9%), Gemini Flash 2 (4,2%) oraz Whisper Large v3 (4,7%).
Cena?
ElevenLabs udostępnia Scribe w konkurencyjnej cenie 0,40 USD za godzinę przetwarzanego audio, z 50% zniżką przez pierwsze sześć tygodni od premiery. Model jest dostępny poprzez stronę internetową ElevenLabs oraz API, co umożliwia łatwą integrację z istniejącymi systemami i aplikacjami. Ponadto, firma pracuje nad wersją o niskim opóźnieniu, która będzie odpowiednia do zastosowań w czasie rzeczywistym.