Jak podaje serwis techcrunch.com, szef ElevenLabs stwierdził, że w długim okresie modele AI staną się towarem. Staniszewski sprecyzował, że ten proces nastąpi w ciągu najbliższych kilku lat. Dodał również, że mimo iż pewne różnice mogą pozostać w przypadku niektórych języków czy głosów, ich znaczenie będzie maleć.
Zapytany, dlaczego ElevenLabs koncentruje się na budowaniu modeli, jeśli ich komodytyzacja (tj. upowszechnienie i standaryzacja)jest nieunikniona, Staniszewski podkreślił, że obecnie stanowią one „największą przewagę i największą zmianę, jaką można dziś uzyskać” w krótkim terminie. Wskazał, że złej jakości interakcje głosowe generowane przez AI nadal są problemem, który musi zostać rozwiązany. W jego ocenie jedyną drogą do wyeliminowania tych mankamentów jest samodzielne tworzenie zaawansowanych modeli. Zauważył jednocześnie, że w dłuższej perspektywie inni gracze na rynku również sprostają temu wyzwaniu. Według niego, klienci poszukujący niezawodnych i skalowalnych rozwiązań prawdopodobnie wciąż będą wykorzystywać różne modele do różnych celów. Badacze ElevenLabs już teraz mieli rozwiązać niektóre kluczowe kwestie architektoniczne modeli w przestrzeni audio.
Staniszewski zdradził, że ElevenLabs planuje nawiązać partnerstwa z innymi firmami oraz współpracować z technologiami open-source.
Jak czytamy w serwisie techcrunch.com, Staniszewski przewiduje, że w ciągu najbliższego roku lub dwóch lat, nastąpi znacząca zmiana – coraz więcej modeli zacznie przechodzić na podejście multimodalne lub fuzje. Oznacza to, że będzie można tworzyć jednocześnie, np. dźwięk i wideo lub włączać LLMy w ustawieniach konwersacyjnych. Jako przykład możliwości, jakie niesie ze sobą łączenie modeli, wskazał Google’s Veo 3.
Czytaj także:
- Jak sztuczna inteligencja ogrzeje Twoje mieszkanie? Naukowcy z Politechniki Wrocławskiej mają na to pomysł!
- Dlaczego ChatGPT uczy nas mniej niż Google?