OpenAI prezentuje Sora - model, który zmieni Twój tekst w pełnoprawne wideo

OpenAI zaprezentowało Sora, nowy model firmy do tworzenia filmów wideo. Ta innowacyjna technologia pozwala użytkownikom konwertować opisy tekstowe na realistyczne filmy, z których każdy trwa maksymalnie do 60 sekund. Sora wyróżnia się zdolnością do tworzenia skomplikowanych scen składających się z wielu postaci i teł. Wszystko to w oparciu o prompty tekstowe generowane przez użytkownika.

Model stojący bezpośrednio za projektem Sora jest zaawansowany i umożliwia generowanie scen z precyzyjnymi ruchami postaci, szczegółowym tłem, a nawet… konkretnymi ruchami kamery. OpenAI zapowiada, iż głównym celem stworzenia modelu Sora jest chęć wytrenowania AI do lepszego zrozumienia obiektów w świecie rzeczywistym oraz wejścia z nimi w potencjalną interakcję. Model Sora jest również w stanie tworzyć postacie prezentujące szereg emocji – wykorzystując chociażby ruchy mimiczne na twarzy. Na pierwszy rzut oka wygląda to nieźle.

Prompt: “A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.” pic.twitter.com/0JzpwPUGPB
— OpenAI (@OpenAI) February 15, 2024

Film z pojedynczego obrazu

Innym fascynującym aspektem Sory jest jej zdolność do generowania filmów z pojedynczego obrazu lub ulepszania istniejących filmów poprzez dodawanie lub udoskonalanie konkretnych klatek. Demonstracje możliwości Sora przez OpenAI obejmują różne scenariusze, takie jak widok Kalifornii z lotu ptaka podczas gorączki złota czy też sceny uchwycone z wnętrza pociągu w Tokio. Co prawda na materiałach widać drobne niespójności, które zauważy bardziej wprawione oko, ale samo demo jest naprawdę godne uwagi i docenienia.

W ostatnim czasie na rynku dominowały rozwiązania takie, jak Midjourney generujące tekst na obraz lub mniejsze startupy, które pozwalały na zamianę tekstu w wideo. Runway i Pika mają się czego bać w związku z wprowadzeniem Sora przez OpenAI. Amerykanie stali się bowiem prawdziwą konkurencją i mają dostęp do znacznie lepszej infrastruktury, która pozwoli im nie tylko łatwiej trenować swoje modele, ale również oferować je znacznie większej ilości użytkowników jednocześnie.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

Testy bezpieczeństwa

Obecnie model Sora znajduje się w fazie testowej, dostępnej dla wybranych osób, które oceniają ją pod kątem potencjalnych problemów i zagrożeń bezpieczeństwa. Grupa ta obejmuje artystów wizualnych, projektantów i filmowców, których opinie mają kluczowe znaczenie dla udoskonalenia modelu. OpenAI przyznaje, że Sora może mieć ograniczenia w symulowaniu złożonych scen fizycznych i zrozumieniu związków przyczynowo-skutkowych (to akurat jak każda sztuczna inteligencja).

W ostatnim czasie OpenAI eksperymentuje również ze znakami wodnymi – firma dodała tego typu rozwiązanie do obrazków generowanych przez narzędzie DALLE-3, ale… da się je banalnie usunąć. Wystarczy przekonwertować zdjęcie lub zrobić zrzut ekranu samego obrazka. Metadane i znak wodny znikają, przez co ciężej wyśledzić grafiki stworzone przez AI. Mimo tego, OpenAI zdaje sobie sprawę z wyzwań stojących za potencjalnym niebezpiecznym wykorzystaniem fotorealistycznych obrazów generowanych przez algorytmy.

Jak będzie z modelem Sora i kiedy trafi do wszystkich zainteresowanych? Tego jeszcze nie wiadomo.

źródło: OpenAI / fot. OpenAI

7 bilionów dolarów – tyle trzeba, aby zbudować nowego „boga”

OpenAI sztuczna inteligencja

OpenAI prezentuje Sora – model, który zmieni Twój tekst w pełnoprawne wideo

Film z pojedynczego obrazu

Testy bezpieczeństwa