W poniedziałek Will Smith umieścił na swoim oficjalnym koncie na Instagramie mocno humorystyczny filmik. Wideo będące zabawną imitacją wygenerowanego przez sztuczną inteligencję klipu przedstawiającego Smitha jedzącego spaghetti, podkreśla niezwykły postęp w jakości wideo tworzonego AI. Tej, która dokonała się w ciągu ostatniego roku.
W swoim najnowszym poście Smith humorystycznie udaje, że jest tworem sztucznej inteligencji, angażując się w różne przesadne wybryki i ruchy związane z jedzeniem spaghetti.
Oryginał pojawił się rok temu
Oryginalne wideo AI, stworzone przez użytkownika serwisu Reddit znanego jako „chaindrop” w marcu 2023 roku, stało się punktem odniesienia do oceny postępów w syntezie wideo przez AI. Post Smitha na Instagramie zestawia stary materiał filmowy wygenerowany przez sztuczną inteligencję z jego obecną, rzeczywistą demonstracją jedzenia spaghetti. To porównanie jest wykonane przy użyciu formatu podzielonego ekranu, gdzie górny segment, oznaczony jako „AI Video 1 year ago”, pokazuje wspomniane wideo z Reddita. Dolny segment, zatytułowany „AI Video Now”, pokazuje Smitha w serii 11 klipów, w których humorystycznie siorbie, “wlewa” w siebie, a nawet skubie spaghetti.
W sekcji komentarzy na Instagramie widzowie pokazali mieszane reakcje. Niektórzy nie byli pewni, czy nowy film Smitha został również wygenerowany przez sztuczną inteligencję, podczas gdy inni żartobliwie wspominali o zamieszaniu, jakie może to spowodować wśród starszych pokoleń – tak zwanych boomerów. Zabawny charakter wideo Smitha wywołał dyskusje na temat obecnego stanu i przyszłego potencjału sztucznej inteligencji w kreowaniu materiałów wideo.
Chociaż najnowszy model Sora firmy OpenAI nie został wykorzystany do odtworzenia sceny jedzenia spaghetti przez Smitha, jakość filmów generowanych przez sztuczną inteligencję znacznie się poprawiła. Szczególnie od czasu oryginalnego wideo.
Warto również wspomnieć o tym, iż oryginalne wideo z Willem Smithem i spaghetti zostało stworzone w marcu 2023 roku – i nie stanowiło wtedy obecnie szczytu możliwości modeli AI generujących wideo. Niemniej jednak było ono na tyle znaczącym osiągnięciem w kontekście publicznie dostępnych rozwiązań, że szybko podbiło internet.
Nowe wideo pokazuje, że nie wszyscy rozpoznają materiały tworzone przez AI
W tym poście Willa Smitha na Instagramie to, co widzisz, jest prawdziwe, a nie stworzone przez sztuczną inteligencję. Podczas gdy wiele osób w ostatnich dniach pokazywało możliwości Sory od OpenAI, niewielu zagłębiało się w mechanikę funkcjonowania takich modeli. To zrozumienie opiera się na dwóch krytycznych komponentach:
Transformerach – ten element działa jako dyrygent orkiestry tworzącej wideo. Interpretuje tekst wejściowy i tworzy skomplikowany scenariusz, szczegółowo opisując narrację, postacie, a nawet drobniejsze aspekty, takie jak perspektywa i kąt ustawienia kamery.
Technologię Diffusion – tutaj scenariusz jest przekształcany w wizualne arcydzieło. Ta faza obejmuje dodawanie kolorów, ruchów i niuansów, które nadają filmowi autentyczności.
Sora przoduje w tworzeniu płynnego ruchu przypominającego kinową jakość dzięki technice znanej jako „SpaceTime patches”. Są one podobne do pojedynczych klatek we zeszycie, z których każda ilustruje postęp ruchu od jednej sceny do następnej.
Model udoskonalił swoje umiejętności animacji, analizując szeroką gamę filmów przedstawiających różne dynamiki – od przewracających się obiektów po płynne ruchy. Można to porównać do sytuacji, w której dziecko uczy się biegać, obserwując postacie z filmów o superbohaterach.
Powracając do scenariusza Willa Smitha, gdyby Sora była dostępna w zeszłym roku, dziwaczne, wadliwe wideo spaghetti mogłoby być nie do odróżnienia od rzeczywistości. Postępy, których jesteśmy świadkami dzięki Sora, są nie tylko imponujące, ale także torują drogę do jeszcze bardziej zdumiewających osiągnięć w najbliższej przyszłości.
Ten szybki postęp budzi podziw, ale jednocześnie budzi obawy. Obecnie rozróżnienie między materiałem prawdziwym a wygenerowanym przez sztuczną inteligencję staje się coraz większym wyzwaniem.
Prowadzi to do kluczowego pytania: w jaki sposób nasze postrzeganie „prawdziwego” materiału filmowego będzie ewoluować w erze AI?
źródło: Instagram / fot. zrzut ekranu z filmu YT