Okazuje się, że materiał pokazowy nowego modelu Gemini nie jest do końca prawdziwy. Zwrócono bowiem uwagę na to, iż rozmowa ze sztuczną inteligencją nie odbywa się w czasie rzeczywistym. Materiał filmowy został najpierw przechwycony, a następnie poproszono sztuczną inteligencję o użycie nieruchomych klatek obrazu i wykorzystywano podpowiedzi tekstowe. Sprawę nagłośnili dziennikarzy i Google postanowiło się do tego wszystkiego odnieść.
Gemini od Google jednak nie jest aż tak potężne?
Kilka dni temu dawaliśmy Wam znać o prezentacji zupełnie nowego modelu AI, który ma być najbardziej zaawansowany i najszybszy. Google chwaliło się swoim projektem i podkreślało jak ważny krok w rozwoju technologii właśnie wykonano. Pokazano również zapierający dech w piersiach klip pokazowy – ten bardzo przypadł do gustu internautom, lecz teraz na jaw wyszły nowe fakty. Redakcja portalu Bloomberg postanowiła bowiem zwrócić uwagę na szereg istotnych szczegółów. O co dokładnie chodzi?
Okazuje się bowiem, że całość konwersacji z AI nie odbywała się w czasie rzeczywistym. Tak naprawdę wykorzystano serię starannie dostosowanych podpowiedzi tekstowych oraz szereg nieruchomych obrazów. Przez to wszystko internauta otrzymał sklejony klip wyglądający tak, jakby interakcja naprawdę odbywała się tu i teraz. Google w specjalnym wpisie na blogu nawet ukazał kilka rzeczywistych promptów i odpowiedzi. Zwiększa to wiarygodność całego zdarzenia.
Chodzi jednak o to, iż widzowie zostali niejako wprowadzeni w błąd jeśli chodzi o faktyczne możliwości Gemini – mowa tu o szybkości, dokładności i poziomu samej interakcji. Dowodem na to jest kadr przedstawiający wykonywanie szybkiej serii gestów podczas gry w kamień, papier, nożyce. Dokumentacja mówi natomiast, że „model nie rozumuje na podstawie widzenia pojedynczych gestów”. Należy pokazać mu wszystkie gesty w jednym momencie i dać podpowiedź, że chodzi o grę. Dopiero wtedy AI jest w stanie zgadnąć.
Podobieństwo wydaje się spore, ale istnieje różnica w poziomie interakcji. Na filmiku widzimy jak Gemini intuicyjnie i bardzo szybko przechwytuje abstrakcyjne gesty, co nie miało miejsca. AI potrzebowało zaprojektowanej scenki i wielu sugestii. Na podobnej zasadzie zakłamano scenę z właściwą kolejnością planet oraz odgadywaniem kulki papieru pod kubkiem.
Mylące są nawet zastrzeżenia widoczne w samym materiale. Sam tytuł sugeruje, że mamy do czynienia z prawdziwymi interakcjami – tak do końca nie było. Całość starannie wyolbrzymiono, by jeszcze bardziej zaskoczyć internautów i sprawić, by uwierzyli w niesamowitą moc sztucznej inteligencji od Google. Firma twierdzi, że zaprezentowany klip prezentuje prawdziwe wyniki AI i wskazuje na „kilka zmian w wersji demonstracyjnej”. Redakcje portali TechCrunch oraz Bloomberg wytknęli koncernowi zakłamanie także i tutaj.
Jak to więc jest naprawdę?
Ciekawy wydaje się również wpis wiceprezesa zespołu Google DeepMind, który postanowił jeszcze bardziej szczegółowo pokazać jak wykorzystano Gemini do stworzenia wyżej opisanego pokazu. Pracownik twierdzi, że film ilustruje „jak mogą wyglądać multimodalne doświadczenia użytkownika” i stanowi jedynie inspirację dla programistów.
Trochę się to gryzie z tym, że na początku twierdzono zupełnie inaczej. Przedstawiano możliwości AI jako coś, co jest już dostępne. Na razie niestety nie jest – kto wie, może będzie jak Gemini Pro w końcu trafi do pierwszych osób. Może ten czas nadejdzie jeszcze później? Na razie jednak użytkownicy czują się nieco oszukani, ponieważ możliwości modelu nie są obecnie na tak wysokim poziomie jak rzekomo przedstawia to klip.
Źródło: TechCrunch, Bloomberg, Google, Twitter (X) (@OriolVinyalsML) / Zdjęcie otwierające: zrzut ekranu z filmu Gemini: Google’s newest and most capable AI model na YouTube (@Google)