„Szeptem do mnie mów” – ElevenLabs z nową generacją modeli text to speech

Dodane:

Informacja prasowa Informacja prasowa

„Szeptem do mnie mów” – ElevenLabs z nową generacją modeli text to speech

Udostępnij:

ElevenLabs udostępniło nową generację modeli text to speech. Eleven v3 to najbardziej ekspresyjny model text-to-speech, zaprojektowany nie tylko do czytania, lecz również do odgrywania treści. Eleven v3 obsługuje ponad 70 języków i jest już dostępny dla wszystkich użytkowników w wersji alpha.

Stworzony w oparciu o zupełnie nową architekturę, Eleven v3 oferuje niespotykany wcześniej realizm i kontrolę nad generowaniem mowy. Potrafi zmieniać tonację w trakcie zdania, płynnie przechodzić między postaciami i reagować na znaczniki takie jak [szept], [śmiech] czy [westchnienie] – wszystko bez utraty naturalności i ciągłości wypowiedzi.

Czytaj także: Projekt skazany na sukces? ElevenLabs i reżyser Danny Boyle zaserwują nam 4 niepokojące filmowe opowieści

Model v3 jest dostępny w wersji alpha. Wymaga o wiele bardziej zaawansowanej i precyzyjnej pracy z promptami niż poprzednie modele, ale rezultat to wyraźny skok jakościowy w ekspresji, niuansach i realizmie generowanej mowy. Eleven v3 obsługuje też znacznie więcej języków – 70, zamiast 33 w poprzednich modelach. Dalsze dostrajanie modelu pozwoli też na zwiększenie niezawodności i precyzji kontroli.

Co wyróżnia v3?

  • Obsługa ponad 70 języków: wzrost z 33 do ponad 70 języków – pokrycie populacji świata zwiększone z 60% do 90%.
  • Tryb dialogu: naturalne przerwy, zmiany tonu oraz płynność emocjonalna w dialogach między wieloma postaciami.
  • Obsługa tagów audio: sterowanie wypowiedzią za pomocą tagów, np. [szept], [złość], [śmiech], [skrzypienie drzwi], co pozwala na szczegółową kontrolę wykonania.
  • Dostępne już teraz: publiczna alpha dostępna na platformie elevenlabs.io.
  • Obsługa streamingu dostępna wkrótce: dla call center oraz agentów konwersacyjnych działających w czasie rzeczywistym.
  • Publiczne API dla Eleven v3 (alpha) dostępne wkrótce. Zainteresowanych wcześniejszym dostępem zapraszamy do kontaktu z działem sprzedaży.

Ekspresyjne treści na wyciągnięcie dłoni

Eleven v3 został stworzony z myślą o twórcach, deweloperach oraz firmach produkujących ekspresyjne treści – takie jak opowiadania, audiobooki, dialogi postaci oraz interaktywne media wymagające wyraźnego przekazywania emocji. Model ten premiuje eksperymentowanie oraz użycie kontekstowych promptów.

Do zastosowań wymagających bardzo niskich opóźnień (np. konwersacyjna AI) nadal zalecamy używanie modeli v2.5 Turbo oraz Flash. Wersja v3 umożliwiająca generowanie mowy w czasie rzeczywistym jest obecnie w przygotowaniu.

Eleven v3 daje twórcom pełną kontrolę nad emocjami, tempem i niuansami wypowiedzi, umożliwiając prawdziwe występy zamiast prostego odczytu. Po raz pierwszy AI potrafi wiernie oddać rytm i ekspresję ludzkiej rozmowy w ponad 70 językach.

– Eleven v3 to najbardziej ekspresyjny model text-to-speech w historii. Umożliwia pełną kontrolę nad emocjami, sposobem wypowiedzi oraz niewerbalnymi sygnałami. Dzięki tagom audio możemy sprawić, by model szeptał, śmiał się, zmieniał akcent, a nawet śpiewał. Możemy też precyzyjnie sterować tempem, emocjami i stylem, by dopasować je do każdego scenariusza. Zgodnie z naszą misją, zwiększyliśmy liczbę obsługiwanych języków do ponad 70. To wszystko jest efektem wizji i zaangażowania mojego współzałożyciela Piotra oraz wybitnego zespołu researchowego, który stworzył. Budowanie dobrych produktów jest trudne, a otwieranie zupełnie nowego rozdziału w rozwoju technologii niemal niemożliwe. Wszyscy w ElevenLabs jesteśmy szczęśliwi mogąc obserwować, jak ten zespół wnosi magię do naszego życia, a wraz z tą premierą ponownie przesuwamy granice tego, co możliwe – mówi Mati Staniszewski, współzałożyciel ElevenLabs.

Czytaj także: