Imponujące możliwości Microsoft Vall-E
Microsoft Vall-E został przeszkolony na ponad 60 000 godzinach mowy, co czyni go setki razy bardziej złożonym od wcześniej istniejących systemów generowania głosu. Rozwiązanie Microsoftu jest bajecznie proste w użyciu i każdy może sprawdzić jego wersję demonstracyjną pod tym adresem w serwisie GitHub.
„VALL-E ma możliwość uczenia się w odpowiednim kontekście i może być używany do syntezy wysokiej jakości spersonalizowanej mowy na podstawie zaledwie 3-sekundowego nagrania. Wyniki eksperymentów pokazują, że VALL-E znacznie przewyższa najnowocześniejszy system TTS zero-shot pod względem naturalności mowy i podobieństwa mówców. Dostrzegliśmy też, że VALL-E może zachować w syntezie emocje mówcy i środowisko akustyczne podpowiedzi akustycznej” – tłumaczą twórcy.
Sprawdź też: Sztuczna inteligencja zrobiła ze mnie artystkę. Midjourney to przyszłość
Zbawienie czy zagrożenie?
Tego rodzaju technologia – podobnie z resztą jak inne techniki spod znaku Deepfake – nie tylko stanowi ogromne zagrożenie w kontekście szerzenia dezinformacji w Internecie, ale także w perspektywie długo terminowej (obecnie jest zbyt słabo dopracowana) może odebrać pracę aktorom głosowym. Obaw jak zawsze jest wiele. Ile okaże się zasadnymi pokaże czas.
Jak zapewne usłyszeliście odsłuchując próbki na GitHubie, Vall-E ma trochę problemów z odwzorowaniem emocjonalnego tonu głosu, ale świetnie radzi sobie z wokalnie neutralną narracją. Sztuczna inteligencja poradziłaby sobie może z narracją w filmach dokumentalnych o przyrodzie, ale aktorzy dubbingujący animacje nie mają się na razie o co obawiać.
Nie przegap: Aplikacja Lensa podbija sieć. Sztuczna inteligencja tworzy niesamowite awatary
Microsoft nie udostępnia kodu na zasadach open source, prawdopodobnie właśnie ze względu na powyższe ryzyka.
Źródło: GitHub