AI nie potrafi rysować rąk, ale niebawem się to zmieni

Jeszcze nie tak dawno temu mało kto spodziewał się, że sztuczna inteligencja będzie w stanie generować tak świetne i realistyczne obrazy, jak dziś robią to Dall-e 2, Midjourney czy Stable Diffusion. Niemniej, istnieje coś, z czym generatory te nadal radzą sobie dość słabo – ludzkie ręce. Chociaż w tej kwestii na przestrzeni kilka ostatnich miesięcy dokonano pewne postępy, pole do popisu nadal jest duże. Omawiany problem mogą natomiast niebawem rozwiązać naukowcy z Chin.

SI kontra ludzkie ręce

Na początku tego roku artystka i profesor ds. SI i sztuki z Universytetu Florydy – Amelia Winger-Bearskin – wyjaśniła, że do tej pory programy AI nie były pewne, czym dokładnie jest „ręka”. Wskazała też, że ręce są na obrazach bardzo szczegółowe, a ich odpowiednie narysowanie wymaga zwrócenia uwagi na wiele niuansów.

Kompleksowość ludzkich to jedna z przyczyn kłopotów, jakie AI ma w ich generowaniu. Wystarczą nieodpowiednio ułożone fałdy skóry, żyły i nie tylko, aby obrazy przedstawiające ręce stanowiły zbiór dziwaczności. Kolejna przyczyna to niewystarczająca liczba obrazów rąk, z których AI może się uczyć. Zdecydowana większa liczba obrazów przedstawia ludzkie twarze lub ich całe ciała.

VCs: AI is going to make designers obsolete

AI accepting the job: pic.twitter.com/h57m1w53yz

— gaut (@0xgaut) November 2, 2022

Sposób na palczasty kłopot

Jako że sztuczna inteligencja nadal zmaga się z obrazami rąk, programiści z Uniwersytetu Nauki i Technologii w Heifei w Chinach pracują nad rozwiązaniem tego problemu. W swojej najnowszej pracy naukowej opisali, jak to porzucili bardzo powszechną technologię tworzenia obrazów dyfuzyjnych na rzecz tak zwanych „neuronowych pól promieniowania”, w skrócie NeRF. Ta forma modelowania 3D bazuje na sieciach neuronowych. Wcześniej korzystano z niej zarówno w Google Research, jak i w Waymo – do tworzenia ogromnych modeli miejskich.

Technika NeRF pozwala sztucznej inteligencji znacznie lepiej zrozumieć geometrię i tekstury obu rąk. Program naukowców z Chin, HandNeRF, najpierw analizuje zdjęcia rąk wykonane pod wieloma kątami, a następnie tworzy trójwymiarowe wizualizacje tych rąk, także w pozach innych, niż na oryginalnych zdjęciach.

Zdjęcia rąk (po lewej) i wizualizacje, które program HandNeRF wygenerował na ich podstawie (po prawej). | Źródło: arXiv

Wadą metody NeRF jest to, że wiąże się ona z długotrwałym treningiem sztucznej inteligencji. Poza tym, ona sama nie umożliwia generowania obrazów w oparciu na tekst. Gdyby połączyć ją jednak z modelami dyfuzji, mogłaby pozwolić na znacznie udoskonalenie generatorów bazujących na sztucznej inteligencji.

Kto wie, może rozwiązanie naukowców z Chin zostanie wykorzystane w generatorów obrazów. A może deweloperzy tych generatorów inaczej rozwiążą problem rysowania rąk? Poczekamy, zobaczymy.

Źródło: New Scientist, fot. tyt. Stable Diffusion