My, ludzie, często miewamy naprawdę wybujałą wyobraźnię. Bez trudu potrafimy zobrazować sobie w głowie wiele przedziwnych rzeczy. To zadanie stanowi o wiele większe wyzwanie dla komputerów, a przynajmniej na razie. Niemniej, technologia stale się rozwija i kto wie, kiedy się to zmieni. Do tego dąży chociażby Nvidia.
Badacze pracujący dla Nvidii opracowali narzędzie, które wykorzystując sztuczną inteligencję potrafi „wyobrazić sobie”, jak inne zwierzęta wyglądałyby z miną, chociażby… Waszego psa. GANimal, bo tak brzmi nazwa narzędzia, przenosi mimikę zwierzęcia widocznego na wybranym zdjęciu na zdjęcia innych zwierząt. Co najlepsze, każdy z Was może to narzędzie wypróbować. Wystarczy przejść pod ten adres, a następnie wgrać do systemu zdjęcie Waszego pupila. Jeśli takowego nie posiadacie, możecie pobawić się z użyciem obrazów znalezionych w Internecie.
Jak szybko zauważycie, narzędzie nie zawsze daje idealne rezultaty. Zwierzęta, na które została przeniesiona mimika innego zwierzęcia, często wyglądają po prostu dziwacznie. Nie zmienia to jednak faktu, technologia stojąca za narzędziem jest niesamowita.
„Większość sieci służących do translacji obrazów, które są oparte na algorytmach GAN, jest trenowana do rozwiązywania pojedynczych zadań – na przykład tłumaczenia koni na zebry.”, powiedział Ming-Yu Liu, jeden z badaczy Nvidii. „W tym przypadku trenujemy sieć tak, aby ta jednocześnie rozwiązywała wiele zadań translacyjnych, gdzie każde zdanie polega na przetłumaczeniu losowego zwierzęcia źródłowego na losowe zwierzę docelowe. Ostatecznie sieć uczy się generalizować, by tłumaczyć znane zwierzęta na zwierzęta, których jeszcze nie widziała.”
Warto przypomnieć, że algorytmy GAN to Generatywne Sieci Przeciwstawne, które uczą się z pomocą tak zwanych generatorów i dyskryminatorów. Zwykle generator tworzy na podstawie dostarczanych informacji obrazy, które mają wyglądać niczym rzeczywiste zdjęcia, a dyskryminator, który otrzymuje zarówno obrazy wygenerowane, jak i dostarczone z zasobów innej sieci neuronowej, musi je od siebie odróżniać. Proces nauczania kończy się, gdy generator zaczyna tworzyć obrazy tak podobne do rzeczywistych zdjęć, że dyskryminator przestaje być w stanie wychwytywać różnice. Właśnie w oparciu o takie sieci badacze z Nvidii opracowali algorytm o nazwie FUNIT (Few-shot, UNsupervised Image-to-image Translation), z którego korzysta narzędzie GANimal.
Algorytm FUNIT wyróżnia na tle innych fakt, iż nie potrzeba do wytrenowania go tysięcy zdjęć. Poza tym, gdy FUNIT już zostanie wytrenowany, wystarczy zaledwie jedno zdjęcie źródłowe oraz jedno zdjęcie każdego zwierzęcia docelowego (z których żadnego nie musiał widzieć wcześniej), aby spełnić swoje zadanie.
Chociaż początkowo trudno wyobrazić sobie, jakie mogłyby być zastosowania opisanej technologii, z czasem do głowy przychodzi kilka ciekawych pomysłów. Podobne algorytmy mogłyby być używane chociażby w przemyśle filmowym – gdzie zdolności wyszkolonych psów można by cyfrowo przenosić na zwierzęta dużo trudniejsze do opanowania.
Źródło: Nvidia