OpenAI zaprezentowało Sora, nowy model firmy do tworzenia filmów wideo. Ta innowacyjna technologia pozwala użytkownikom konwertować opisy tekstowe na realistyczne filmy, z których każdy trwa maksymalnie do 60 sekund. Sora wyróżnia się zdolnością do tworzenia skomplikowanych scen składających się z wielu postaci i teł. Wszystko to w oparciu o prompty tekstowe generowane przez użytkownika.
Model stojący bezpośrednio za projektem Sora jest zaawansowany i umożliwia generowanie scen z precyzyjnymi ruchami postaci, szczegółowym tłem, a nawet… konkretnymi ruchami kamery. OpenAI zapowiada, iż głównym celem stworzenia modelu Sora jest chęć wytrenowania AI do lepszego zrozumienia obiektów w świecie rzeczywistym oraz wejścia z nimi w potencjalną interakcję. Model Sora jest również w stanie tworzyć postacie prezentujące szereg emocji – wykorzystując chociażby ruchy mimiczne na twarzy. Na pierwszy rzut oka wygląda to nieźle.
Film z pojedynczego obrazu
Innym fascynującym aspektem Sory jest jej zdolność do generowania filmów z pojedynczego obrazu lub ulepszania istniejących filmów poprzez dodawanie lub udoskonalanie konkretnych klatek. Demonstracje możliwości Sora przez OpenAI obejmują różne scenariusze, takie jak widok Kalifornii z lotu ptaka podczas gorączki złota czy też sceny uchwycone z wnętrza pociągu w Tokio. Co prawda na materiałach widać drobne niespójności, które zauważy bardziej wprawione oko, ale samo demo jest naprawdę godne uwagi i docenienia.
W ostatnim czasie na rynku dominowały rozwiązania takie, jak Midjourney generujące tekst na obraz lub mniejsze startupy, które pozwalały na zamianę tekstu w wideo. Runway i Pika mają się czego bać w związku z wprowadzeniem Sora przez OpenAI. Amerykanie stali się bowiem prawdziwą konkurencją i mają dostęp do znacznie lepszej infrastruktury, która pozwoli im nie tylko łatwiej trenować swoje modele, ale również oferować je znacznie większej ilości użytkowników jednocześnie.
Testy bezpieczeństwa
Obecnie model Sora znajduje się w fazie testowej, dostępnej dla wybranych osób, które oceniają ją pod kątem potencjalnych problemów i zagrożeń bezpieczeństwa. Grupa ta obejmuje artystów wizualnych, projektantów i filmowców, których opinie mają kluczowe znaczenie dla udoskonalenia modelu. OpenAI przyznaje, że Sora może mieć ograniczenia w symulowaniu złożonych scen fizycznych i zrozumieniu związków przyczynowo-skutkowych (to akurat jak każda sztuczna inteligencja).
W ostatnim czasie OpenAI eksperymentuje również ze znakami wodnymi – firma dodała tego typu rozwiązanie do obrazków generowanych przez narzędzie DALLE-3, ale… da się je banalnie usunąć. Wystarczy przekonwertować zdjęcie lub zrobić zrzut ekranu samego obrazka. Metadane i znak wodny znikają, przez co ciężej wyśledzić grafiki stworzone przez AI. Mimo tego, OpenAI zdaje sobie sprawę z wyzwań stojących za potencjalnym niebezpiecznym wykorzystaniem fotorealistycznych obrazów generowanych przez algorytmy.
Jak będzie z modelem Sora i kiedy trafi do wszystkich zainteresowanych? Tego jeszcze nie wiadomo.
źródło: OpenAI / fot. OpenAI