SI kontra ludzkie ręce
Na początku tego roku artystka i profesor ds. SI i sztuki z Universytetu Florydy – Amelia Winger-Bearskin – wyjaśniła, że do tej pory programy AI nie były pewne, czym dokładnie jest „ręka”. Wskazała też, że ręce są na obrazach bardzo szczegółowe, a ich odpowiednie narysowanie wymaga zwrócenia uwagi na wiele niuansów.
Kompleksowość ludzkich to jedna z przyczyn kłopotów, jakie AI ma w ich generowaniu. Wystarczą nieodpowiednio ułożone fałdy skóry, żyły i nie tylko, aby obrazy przedstawiające ręce stanowiły zbiór dziwaczności. Kolejna przyczyna to niewystarczająca liczba obrazów rąk, z których AI może się uczyć. Zdecydowana większa liczba obrazów przedstawia ludzkie twarze lub ich całe ciała.
VCs: AI is going to make designers obsolete
AI accepting the job: pic.twitter.com/h57m1w53yz
— gaut (@0xgaut) November 2, 2022
Sposób na palczasty kłopot
Jako że sztuczna inteligencja nadal zmaga się z obrazami rąk, programiści z Uniwersytetu Nauki i Technologii w Heifei w Chinach pracują nad rozwiązaniem tego problemu. W swojej najnowszej pracy naukowej opisali, jak to porzucili bardzo powszechną technologię tworzenia obrazów dyfuzyjnych na rzecz tak zwanych „neuronowych pól promieniowania”, w skrócie NeRF. Ta forma modelowania 3D bazuje na sieciach neuronowych. Wcześniej korzystano z niej zarówno w Google Research, jak i w Waymo – do tworzenia ogromnych modeli miejskich.
Technika NeRF pozwala sztucznej inteligencji znacznie lepiej zrozumieć geometrię i tekstury obu rąk. Program naukowców z Chin, HandNeRF, najpierw analizuje zdjęcia rąk wykonane pod wieloma kątami, a następnie tworzy trójwymiarowe wizualizacje tych rąk, także w pozach innych, niż na oryginalnych zdjęciach.
Wadą metody NeRF jest to, że wiąże się ona z długotrwałym treningiem sztucznej inteligencji. Poza tym, ona sama nie umożliwia generowania obrazów w oparciu na tekst. Gdyby połączyć ją jednak z modelami dyfuzji, mogłaby pozwolić na znacznie udoskonalenie generatorów bazujących na sztucznej inteligencji.
Kto wie, może rozwiązanie naukowców z Chin zostanie wykorzystane w generatorów obrazów. A może deweloperzy tych generatorów inaczej rozwiążą problem rysowania rąk? Poczekamy, zobaczymy.
Źródło: New Scientist, fot. tyt. Stable Diffusion