Badacze postanowili tak zaprogramować model językowy sztucznej inteligencji, by był w stanie samodzielnie grać w Minecrafta – finalnie projekt zakończył się sukcesem, lecz niezbędny okazał się jednak długi trening obejmujący nieustanną analizę obszernej bazy danych. Opublikowano nawet materiał ukazujący poczynania AI i momentami trudno odróżnić je od tego, co zrobiliby prawdziwi użytkownicy. Przyjrzyjmy się temu nieco bliżej, gdyż całość jest dosyć skomplikowana.
GPT-4 gra w Minecrafta zaskakująco dobrze
Jeśli śledzicie rozwój SI, to z pewnością kojarzycie próbę nauczenia GPT-3 gry w Minecrafta przez zespół OpenAI – swego czasu nawet Was o tym informowaliśmy. Algorytm został wtedy zasilony tysiącami godzin filmików z YouTube, co pozwoliło na skuteczne udawanie, że sztuczna inteligencja dokładnie wie, co należy zrobić z np. danym blokiem. Tak naprawdę byliśmy wtedy świadkami kopiowania ludzkich zachowań, nie dochodziło do jakichkolwiek głębszych analiz oraz podejmowania logicznych wyborów dotyczących tego co np. bardziej się w tym momencie opłaca zrobić.
Kilka miesięcy temu światło dzienne ujrzał jednak model językowy GPT-4 i naukowcy od razu zaczęli patrzeć na niego pod kątem badawczym. Minecraft to idealny wybór, gdyż sama produkcja praktycznie nie ma końca, a danych na jej temat możemy odnaleźć w sieci naprawdę mnóstwo. Jest więc ona perfekcyjną maszyną testową jeśli chodzi o sprawdzanie potencjału oraz umiejętności sztucznej inteligencji. Okej, czego więc dokonali badacze z Uniwersytetu Stanforda, Uniwersytetu Teksańskiego w Austin, Uniwersytetu Stanu Arizona, Kalifornijskiego Instytutu Technicznego oraz firmy NVIDIA?
What if we set GPT-4 free in Minecraft?
I’m excited to announce Voyager, the first lifelong learning agent that plays Minecraft purely in-context. Voyager continuously improves itself by writing, refining, committing, and retrieving *code* from a skill library.
GPT-4 unlocks… pic.twitter.com/hjTxk6Qb1x
— Jim Fan (@DrJimFan) May 26, 2023
Fundamentem całego przedsięwzięcia jest Voyager, czyli autorski agent sztucznej inteligencji zasilany przez API GPT-4 (pomaga także API o nazwie Mineflyer, które znacząco ułatwia tworzenie botów). Jednym z najważniejszych elementów jest mechanizm podpowiedzi, który pobiera informacje zwrotne z samej gry, następnie je analizuje oraz dba, by nie dopuścić do nich w przeszłości. Narzędzie ponadto gromadzi wszystkie udoskonalone umiejętności oraz nie pozwala, by algorytm o nich zapomniał.
Bardzo ciekawy jest także mechanizm o nazwie „automatic curriculum”, co można określić jako zautomatyzowany program nauczania. Dzięki temu sztuczna inteligencja dokładnie wie, co należy zrobić w danym momencie. Niweluje to występujący w przeszłości problem polegający na tym, że AI od razu po starcie gry chciała np. stworzyć diamentowy kilof. Teraz skupi się na aktualnych priorytetach i zacznie wspinać się po pojedynczych szczeblach rozwoju, by odkryć jak najwięcej elementów. Robi wrażenie, prawda?
Voyager has 3 key components:
1) An iterative prompting mechanism that incorporates game feedback, execution errors, and self-verification to refine programs;
2) A skill library of code to store & retrieve complex behaviors;
3) An automatic curriculum to maximize exploration. pic.twitter.com/T0trc55Hfg— Jim Fan (@DrJimFan) May 26, 2023
Wszystko jest ponadto nieco bardziej skomplikowane, gdyż zostało podzielone na kilka etapów. Agent na samym początku weryfikuje, czy wykonanie konkretnej akcji jest zgodne z tym, co znajduje się w bazie danych. Jeśli tak, to czynność automatycznie wędruje do biblioteki umiejętności – przez to wykluczona zostaje możliwość wykonania danej akcji błędnie w przyszłości. Potem GPT-4 proponuje wykonanie kolejnego kroku (biorąc przy tym pod uwagę zawartość biblioteki umiejętności oraz szeregu innych czynników) i tak w kółko.
Sztuczna inteligencja opiera się więc na powtarzaniu sprawdzonych już akcji, ale przy okazji nieustannie bada, czy jest możliwość wykonania również innych. Oczywiście nadal występują błędy i całość nie prezentuje się tak idealnie, jak na papierze. Wciąż jednak mówimy o sukcesie, gdyż GPT-4 jest w stanie odkryć kilka razy więcej przedmiotów niż miało to miejsce rok temu.
Przed badaczami jeszcze sporo pracy, lecz na powyższym filmiku możecie zobaczyć, że dokonano znacznego postępu. Momentami prezentuje się to naprawdę przerażająco, ale również ekscytująco.
Źródło: Twitter, Spider’s Web / Zdjęcie otwierające: Mojang