Wystarczy spojrzeć na obrazek, który znajdziecie w tym tekście. Na pierwszy rzut oka to normalna grafika, która posiada elementy złożone z linii oraz kropek. Nasz mózg jest w stanie bez problemu zidentyfikować, co się na niej znajduje. Dla AI okazuje się to jednak nie lada wyzwaniem. Z czego dokładnie wynika ta sytuacja?
Popatrz na grafikę poniżej. Co widzisz?
Jeśli widzisz człowieka i psa, który najprawdopodobniej jest na smyczy – nie jesteś sam. Nasze mózgi są mistrzami w organizacji wizualnej. Są w stanie bez wyiłku nadać znaczenie pozornie chaotycznym elementem. Sztuczna inteligencja, nieważne jak zaawansowana i nieważne czy to ChatGPT, Gemini czy Claude 2.1 – po prostu nie sobie nie radzi. Z czego to wynika?
Między innymi ze zbioru zasad określanych jako teoria Gestalt.
Percepcja Gestalt
Jest to część szerszej dziedziny zwanej psychologią Gestalt, która koncentruje się na tym, jak my jako ludzie rozumiemy świat wizualny. Zamknięcie oznacza, że nasz mózg instynktownie wypełnia luki w niekompletnych kształtach i figurach, aby postrzegać je jako całość. Tak, jak ma to miejsce w przypadku obrazka powyżej. Rozproszone kropki na grafice nagle stają się w naszej głowie częścią człowieka oraz zwierzęciem na smyczy. Dzieje się to w sposób całkowicie automatyczny i niezależny.
W zasadzie nieważne jaką grafikę weźmiecie, która będzie przestrzegała podobne zasady do mojego przykładu – Wasz mózg zadziała w ten sam, przewidywalny sposób.
Dlaczego AI pozostaje w tyle?
Podczas gdy sztuczna inteligencja może wykonywać niezwykłe rzeczy, a także całkiem nieźle rozpoznawać obrazki – percepcja Gestalt stanowi dla niej prawdziwe wyzwanie. Algorytmy wykorzystywane przez sztuczną inteligencję opierają się na ogromnych zbiorach danych – w tym przypadku obrazków przeznaczonych do treningu danego modelu. Zamiast intuicyjnych “skoków”, jakie wykonuje nasz mózg, analizują one wzorce za pomocą samej mocy obliczeniowej. To sytuacja czysto logiczna, praktycznie zero-jedynkowa. Niektórzy mogą powiedzieć nawet, że sztuczna.
Wspomniane przeze mnie zbiory danych mogą nauczyć sztuczną inteligencję rozpoznawania obrazów z zadziwiającą dokładnością. Często jednak nie biorą one pod uwagę treningu na danych prezentujących możliwości ludzkiej percepcji. Podkreśla to różnicę między surowym wyszukiwaniem wzorców a prawdziwym zrozumieniem wizualnym, którym możemy pochwalić się my jako ludzie.
Na pewno pamiętasz słynną debatę w sieci na temat koloru sukienki – szybko stała się ona viralem i podzieliła użytkowników na dwa obozy. To czysty przykład tego, jak działa percepcja Gestalt.
Co ciekawe, percepcja Gestalt rodzi problemy nie tylko w przypadku sztucznej inteligencji projektowanej do rozpoznawania obrazów. Podobna sytuacja ma miejsce również w przypadku samochodów autonomicznych. Te sprzęty są projektowane tak, aby podejmowały za pomocą oprogramowania decyzje bazując na różnych wskazówkach wizualnych oraz tych, które dotyczą otoczenia. Autonomiczne samochody muszą niemal perfekcyjne decyzje dotyczące otoczenia – pomimo braku intuicyjnego zrozumienia percepcji.
To znacząco utrudnia projektowanie systemów do w pełni autonomicznej jazdy – i faktycznie, na rynku nie ma jeszcze takiej technologii, która pozwoliłaby nam jako ludziom odwrócić na dobre oczy od drogi znajdującej się za przednią szybą.
Popularne złudzenia optyczne
Złudzenia optyczne to doskonałe przykłady tego, jak percepcja Gestalt wpływa na interpretację obrazów przez nasz mózg. Te iluzje wykorzystują różne techniki, aby stworzyć wrażenie, które różni się od rzeczywistości. Oto kilka przykładów:
Trójkąt Kanizsy
Na pierwszy rzut oka wydaje się, że na obrazie widzimy biały trójkąt. W rzeczywistości nie ma tam żadnego trójkąta, a jedynie trzy czarne figury ułożone w taki sposób, że nasz mózg „dopełnia” kształt i tworzy iluzję trójkąta.
Waza Rubina
Na tym obrazie widzimy dwie sylwetki twarzy patrzących na siebie lub białą wazę na czarnym tle. Percepcja Gestalt sprawia, że nie jesteśmy w stanie zobaczyć obu elementów jednocześnie.
Kwadraty Eschera
Te rysunki przedstawiają niemożliwe konstrukcje, takie jak schody, które prowadzą do góry i w dół jednocześnie. Nasz mózg stara się nadać sens tym obrazom, co powoduje iluzję.
Złudzenia optyczne pokazują, jak nasz mózg interpretuje obrazy w sposób automatyczny i intuicyjny. Zasady Gestalt pomagają nam zrozumieć te zjawiska i uświadomić sobie, jak nasze mózgi konstruują rzeczywistość na podstawie bodźców wizualnych.
Ludzka kreatywność wciąż króluje
Pierwszym przykładem z brzegu mogą być graficy komputerowi – to oni posiadają głębokiie zrozumienie tego, jak Gestalt przekłada się na kształtowanie ludzkiej percepcji. Pomaga im to nie tylko na stworzenie lepszej komunikacji, ale również obrazów, które rezonują bezpośrednio z odbiorcami. Na razie nie ma co się obawiać, że sztuczna inteligencja będzie w stanie zastąpić projektantów graficznych – przynajmniej w kwestii bardziej zaawansowanych zadań niż prosta grafika na social media.
Opisywana przeze mnie luka w możliwościach sztucznej inteligencji wskazuje na ekscytujące kierunki dalszych badań. Czy przyszłe systemy sztucznej inteligencji będą w stanie zrozumieć zasady Gestalt, aby postrzegać świat bardziej podobnie do nas?
Być może odpowiedzią jest ściślejsza współpraca między inteligencją ludzką i stricte tą maszynową. Następnym razem, gdy spojrzysz na złudzenie optyczne lub zauważysz ukryty obraz, doceń niesamowity sposób, w jaki Twój mózg organizuje i interpretuje otaczający cię świat!
źródło: własne / fot. Unsplash.com