To niesamowite, na co sztuczna inteligencja już powala, a tymczasem naukowcy przesuwają granice jej możliwości jeszcze dalej. Microsoft właśnie zaprezentował możliwości sztucznej inteligencji VASA-1, której wystarczy pojedyncze zdjęcie i próbka audio, aby stworzyć realistyczne wideo przedstawiające mówiącą osobę.
Wideo na podstawie pojedynczego zdjęcia
VASA-1 to dzieło naukowego projektu. Microsoft nie ma w planach komercjalizacji jego rezultatów. Nie zamierza udostępniać go też nikomu za darmo, ale może to i lepiej, biorąc pod uwagę to, jak realistyczne rezultaty VASA-1 produkuje.
Jak już wspomniałam we wstępie, VASA-1 tworzy krótkie materiały wideo na podstawie pojedynczego zdjęcia i próbki audio. Są to materiały o rozdzielczości 512 x 512 pikseli i 40 FPS-ach. Mowa o materiałach wideo, bohater których przemawia do nas tak, jakby po prostu został nagrany. Sztuczna inteligencja zadbała w ich przypadku nie tylko o realistyczny ruch ust mówiących osób, ale również realistyczną mimikę i ruch głowy.
Okej, na próbkach, którymi podzielił się Microsoft widać, że coś jest nie tak – że to materiały stworzone przez sztuczną inteligencję. Niektóre ruchy głowy czy ust przedstawionych na nich postaci zdają się zbyt płynne. Część postaci również charakterystycznie „pulsuje” na ekranie – nie ważne czym zarejestrowalibyśmy człowieka na wideo, takie zjawisko nie będzie miało miejsca. Myślę jednak, że nie potrzeba byłoby wielu godzin pracy, aby sztuczną inteligencję udoskonalić i te błędy wyeliminować.
Sztuczna inteligencja o przerażających możliwościach
Co ważne, Microsoft stworzył przy użyciu VESA-1 wszystkie demonstracyjne animacje na podstawie obrazów, które wcześniej również zostały wygenerowane przez sztuczną inteligencję. Innymi słowy, żadna z nich nie przedstawia żyjącego, prawdziwego człowieka. Tylko jedno wideo nie powstało w oparciu o obraz wygenerowany przez AI – wideo z Mona Lisą. Zupełnie inaczej jest jednak w przypadku audio. Zauważyłam, że firma wykorzystała w demonstracji audio z fragmentu występu komika Jimmy’ego O Yanga – ciekawe, czy uprzednio go o tym poinformowała.
Najbardziej zaskakujące jest to, że sztuczna inteligencja VESA-1 potrafi generować realistyczne animacje nawet na podstawie typów obrazów i form audio, które nie były częścią danych, na których ją wytrenowano. Mowa na przykład o obrazach namalowanych, a jeśli chodzi o audio – o nagraniach śpiewu czy mowy w języku innym niż angielski.
Dziwi również to, jak wielką kontrolę nad powstającą animacją ma osoba, która korzysta z modelu VESA-1. Jak możemy zobaczyć na filmie Microsoftu, taka osoba może zmienić ton głosu bohatera filmu, jego szybkość i głośność mowy czy ustawienie bohatera filmu w kadrze.
Prawdę mówiąc mam nadzieję, że podobna technologia nigdy nie będzie publicznie dostępna. Wyobraźcie sobie, jak wiele szkód mogłyby wyrządzić tworzone z jej użyciem deepfake’i.
Źródło: Microsoft, fot. tyt. Microsoft