AI nie potrafi rysować rąk, ale niebawem się to zmieni

Anna BorzęckaSkomentuj
AI nie potrafi rysować rąk, ale niebawem się to zmieni
Jeszcze nie tak dawno temu mało kto spodziewał się, że sztuczna inteligencja będzie w stanie generować tak świetne i realistyczne obrazy, jak dziś robią to Dall-e 2, Midjourney czy Stable Diffusion. Niemniej, istnieje coś, z czym generatory te nadal radzą sobie dość słabo – ludzkie ręce. Chociaż w tej kwestii na przestrzeni kilka ostatnich miesięcy dokonano pewne postępy, pole do popisu nadal jest duże. Omawiany problem mogą natomiast niebawem rozwiązać naukowcy z Chin.

SI kontra ludzkie ręce

Na początku tego roku artystka i profesor ds. SI i sztuki z Universytetu FlorydyAmelia Winger-Bearskin – wyjaśniła, że do tej pory programy AI nie były pewne, czym dokładnie jest „ręka”. Wskazała też, że ręce są na obrazach bardzo szczegółowe, a ich odpowiednie narysowanie wymaga zwrócenia uwagi na wiele niuansów.

Kompleksowość ludzkich to jedna z przyczyn kłopotów, jakie AI ma w ich generowaniu. Wystarczą nieodpowiednio ułożone fałdy skóry, żyły i nie tylko, aby obrazy przedstawiające ręce stanowiły zbiór dziwaczności. Kolejna przyczyna to niewystarczająca liczba obrazów rąk, z których AI może się uczyć. Zdecydowana większa liczba obrazów przedstawia ludzkie twarze lub ich całe ciała.


Sposób na palczasty kłopot

Jako że sztuczna inteligencja nadal zmaga się z obrazami rąk, programiści z Uniwersytetu Nauki i Technologii w Heifei w Chinach pracują nad rozwiązaniem tego problemu. W swojej najnowszej pracy naukowej opisali, jak to porzucili bardzo powszechną technologię tworzenia obrazów dyfuzyjnych na rzecz tak zwanych „neuronowych pól promieniowania”, w skrócie NeRF. Ta forma modelowania 3D bazuje na sieciach neuronowych. Wcześniej korzystano z niej zarówno w Google Research, jak i w Waymo – do tworzenia ogromnych modeli miejskich.

Technika NeRF pozwala sztucznej inteligencji znacznie lepiej zrozumieć geometrię i tekstury obu rąk. Program naukowców z Chin, HandNeRF, najpierw analizuje zdjęcia rąk wykonane pod wieloma kątami, a następnie tworzy trójwymiarowe wizualizacje tych rąk, także w pozach innych, niż na oryginalnych zdjęciach.

handnerf

Zdjęcia rąk (po lewej) i wizualizacje, które program HandNeRF wygenerował na ich podstawie (po prawej). | Źródło: arXiv

Wadą metody NeRF jest to, że wiąże się ona z długotrwałym treningiem sztucznej inteligencji. Poza tym, ona sama nie umożliwia generowania obrazów w oparciu na tekst. Gdyby połączyć ją jednak z modelami dyfuzji, mogłaby pozwolić na znacznie udoskonalenie generatorów bazujących na sztucznej inteligencji.

Kto wie, może rozwiązanie naukowców z Chin zostanie wykorzystane w generatorów obrazów. A może deweloperzy tych generatorów inaczej rozwiążą problem rysowania rąk? Poczekamy, zobaczymy.

Źródło: New Scientist, fot. tyt. Stable Diffusion

Udostępnij

Anna BorzęckaSwoją przygodę z dziennikarstwem rozpoczęła w 2015 roku. Na co dzień pisze o nowościach ze świata technologii i nauki, ale jest również autorką felietonów i recenzji. Chętnie testuje możliwości zarówno oprogramowania, jak i sprzętu – od smartfonów, przez laptopy, peryferia komputerowe i urządzenia audio, aż po małe AGD. Jej największymi pasjami są kulinaria oraz gry wideo. Sporą część wolnego czasu spędza w World of Warcraft, a także przyrządzając potrawy z przeróżnych zakątków świata.