W ciągu niespełna dwóch lat ElevenLabs, startup zajmujący się głosową sztuczną inteligencją, stworzony przez byłych pracowników Google i Palantir, osiągnął status jednorożca. Firma ujawniła niedawno, że pozyskała 80 milionów dolarów w rundzie finansowania serii B, co spowodowało dziesięciokrotny wzrost jej wyceny – do 1,1 miliarda dolarów.
Inwestycja ta była współprowadzona przez obecnych inwestorów Andreessena Horowitza, byłego dyrektora generalnego GitHub Nat Friedmana i byłego lidera działu Apple AI – Daniela Grossa. W rundzie finansowania uczestniczyły również Sequoia Capital i SV Angel.
ElevenLabs, znana ze swojego doświadczenia w wykorzystywaniu uczenia maszynowego do klonowania i syntezy głosów w różnych językach, zamierza wykorzystać fundusze na rozwój swoich badań i ulepszenie oferty istniejących produktów. Firma zaprezentowała również nowe funkcje, takie jak narzędzie do dubbingowania pełnometrażowych filmów i rynek, na którym użytkownicy mogą zarabiać na swoich uprzednio sklonowanych głosach.
W świecie, w którym języki i dialekty różnią się w zależności od regionu, lokalizacja treści dla każdej osoby jest trudnym zadaniem.
Zatrudniając artystów dubbingowych na określone rynki o potencjale wzrostu, często używa się języka angielskiego lub innego, równie popularnego – na przykład hiszpańskiego. Artyści ci nagrywają treści w docelowym języku, umożliwiając ich dystrybucję. Jednak ten ręczny proces dubbingowania często prowadzi do powstania treści, które ze swoją jakością są dalekie od oryginału. Nie wspominając już o kłopotach związanych z ograniczeniami produkcyjnymi, kiedy zespół tworzący dubbingi posiada mało osób na pokładzie.
Prosty, ale jakże skuteczny pomysł
Piotr Dąbkowski, były inżynier uczenia maszynowego w Google, i Mati Staniszewski, były strateg ds. wdrożeń w Palantir, obaj z Polski, osobiście doświadczyli tego problemu, gdy natknęli się na filmy ze słabą jakością dubbingu. To wyzwanie zmotywowało ich do założenia ElevenLabs, firmy z misją uczynienia wszystkich treści powszechnie dostępnymi w dowolnym języku i głosie przy wykorzystaniu sztucznej inteligencji.
Firma ElevenLabs została otwarta w 2022 roku i od tego czasu stale się rozwija. Początkowo zyskała uznanie za swój model zamiany tekstu na mowę, który tworzył głosy AI brzmiące naturalnie w języku angielskim. Sam miałem okazję trochę pobawić się wspomnianą technologią i wszystko to działa naprawdę fenomenalnie.
Po kilku miesiącach od rozpoczęcia działalności, Eleven Labs rozszerzyło swoje modele o wersje Eleven Multilingual v1 i v2, które oferowały obsługę syntezy dla różnych języków, takich jak polski, niemiecki, hiszpański, francuski, włoski, portugalski i hindi.
Dzięki narzędziu do syntezy mowy użytkownicy mogli przekształcić wybrany tekst, taki jak skrypt podcastu, w treść audio przy użyciu preferowanego głosu i języka.
Jak to działa?
Technologia ElevenLabs wykorzystuje świadomość kontekstu i wysoką kompresję, aby dostarczać mowę, która jest niezwykle realistyczna. Zamiast generować zdania indywidualnie, ich unikalny model rozumie relacje między słowami i dostosowuje dostarczanie w oparciu o szerszy kontekst. Nie ma żadnych wstępnie zaprogramowanych funkcji, co pozwala mu dynamicznie przewidywać wiele cech głosu podczas procesu generowania mowy.
W ciągu kilku miesięcy od uruchomienia wersji beta, ElevenLabs zyskało znaczną popularność, przyciągając ponad milion użytkowników. Firma rozszerzyła swoje badania nad głosem AI, wprowadzając AI Dubbing, narzędzie, które konwertuje mowę na mowę i umożliwia użytkownikom tłumaczenie audio i wideo na 29 różnych języków, zachowując oryginalny głos i emocje mówcy. Obecnie wśród klientów firmy znajduje się 41% firm z listy Fortune 500, w tym renomowani wydawcy treści, tacy jak Storytel, The Washington Post i TheSoul Publishing.
„W nadchodzących latach naszym celem jest zdobycie pozycji największego autorytetu w dziedzinie badań nad sztuczną inteligencją głosową i wdrażania produktów na skalę globalną. Ponadto mamy aspiracje do tworzenia bardziej wyrafinowanych narzędzi zaprojektowanych specjalnie dla profesjonalistów i ich unikalnych potrzeb” – stwierdził Staniszewski.
Pieniędzy do wzięcia jest sporo. Według Market US, światowy rynek tego typu narzędzi został wyceniony na 1,2 miliarda dolarów w 2022 roku i przewiduje się, że osiągnie około 5 miliardów dolarów do 2032 roku.
Nam pozostaje kibicować rodakom i życzyć im jak najlepiej. Jeśli chcecie zobaczyć, jak działa technologia od Eleven Labs, wystarczy kliknąć tutaj.
źródło: Eleven Labs / fot. Eleven Labs