Sztuczna inteligencja Microsoftu w trzy sekundy skopiuje Twój głos

Trudno jest oprzeć się wrażeniu, że rozwój sztucznej inteligencji i wszelkiego rodzaju algorytmów uczenia maszynowego będzie jednym z najpopularniejszych tematów 2023 roku. Ledwo wkroczyliśmy w nowy rok, a już zdążyliśmy opisać kontrowersyjny ban dla artysty oskarżonego o wykorzystywanie SI na etapie tworzenia swoich prac. Dziś mamy inną ciekawostkę, związaną tym razem z Microsoftem. Gigant z Redmond chwali się, że neuronowy model języka kodeków o nazwie Vall-E (nazwa nawiązuje do OpenAI Dall-E) jest w stanie zreplikować głos dowolnej osoby w trzy sekundy.

Imponujące możliwości Microsoft Vall-E

Microsoft Vall-E został przeszkolony na ponad 60 000 godzinach mowy, co czyni go setki razy bardziej złożonym od wcześniej istniejących systemów generowania głosu. Rozwiązanie Microsoftu jest bajecznie proste w użyciu i każdy może sprawdzić jego wersję demonstracyjną pod tym adresem w serwisie GitHub.

„VALL-E ma możliwość uczenia się w odpowiednim kontekście i może być używany do syntezy wysokiej jakości spersonalizowanej mowy na podstawie zaledwie 3-sekundowego nagrania. Wyniki eksperymentów pokazują, że VALL-E znacznie przewyższa najnowocześniejszy system TTS zero-shot pod względem naturalności mowy i podobieństwa mówców. Dostrzegliśmy też, że VALL-E może zachować w syntezie emocje mówcy i środowisko akustyczne podpowiedzi akustycznej” – tłumaczą twórcy.

Sprawdź też: Sztuczna inteligencja zrobiła ze mnie artystkę. Midjourney to przyszłość

Zbawienie czy zagrożenie?

Tego rodzaju technologia – podobnie z resztą jak inne techniki spod znaku Deepfake – nie tylko stanowi ogromne zagrożenie w kontekście szerzenia dezinformacji w Internecie, ale także w perspektywie długo terminowej (obecnie jest zbyt słabo dopracowana) może odebrać pracę aktorom głosowym. Obaw jak zawsze jest wiele. Ile okaże się zasadnymi pokaże czas.

Jak zapewne usłyszeliście odsłuchując próbki na GitHubie, Vall-E ma trochę problemów z odwzorowaniem emocjonalnego tonu głosu, ale świetnie radzi sobie z wokalnie neutralną narracją. Sztuczna inteligencja poradziłaby sobie może z narracją w filmach dokumentalnych o przyrodzie, ale aktorzy dubbingujący animacje nie mają się na razie o co obawiać.

Nie przegap: Aplikacja Lensa podbija sieć. Sztuczna inteligencja tworzy niesamowite awatary

Microsoft nie udostępnia kodu na zasadach open source, prawdopodobnie właśnie ze względu na powyższe ryzyka.

Źródło: GitHub