To niesamowite, jakich postępów dokonano w ostatnich latach w kwestii rozwoju algorytmów sztucznej inteligencji. Postępy te mogą jednak w niedalekiej przyszłości wyhamować. To dlatego, że dane potrzebne do treningu AI mają się powoli kończyć.
Modele AI nie biorą się z niczego
Aby wytrenować wydajny, dokładny i rzetelny model sztucznej inteligencji, potrzeba ogromnej ilości danych. Dla przykładu, ChatGPT został wytrenowany na 570 gigabajtach danych tekstowych, czyli około 300 miliardach słów. Z kolei algorytmy stojące za takimi generatorami obrazów jak DALL-E, Lensa i Midjourney wytrenowano na miliardach obrazów z ich tekstowymi opisami. Gdyby taki algorytm został wytrenowany na niewystarczającej ilości danych, rezultaty jego działania nie byłyby zadowalające.
Oczywiście ważna jest też jakość danych wejściowych. Dane niskiej jakości, chociażby w postaci postów z social mediów albo rozmytych obrazów, łatwo pozyskać. Trening AI z ich użyciem jest jednak mało ektywny. To dlatego, że posty z social mediów mogą zawierać fałszywe informacje i przykłady uprzedzeń. Chyba wszyscy pamiętamy jak skończył stworzony przez Microsoft bot, który został wytrenowany na treściach z Twittera. Właśnie dlatego twórcy zaawansowanych modeli AI szukają danych wysokiej jakości – danych z podręczników, internetowych artykułów, prac naukowych czy Wikipedii. Co ciekawe, Asystent Google został wytrenowany na 11 tysiącach romansów (książek, nie filmów) – aby był bardziej rozmowny.
Problem, któremu niebawem stawimy czoła
Niestety badania pokazują, że zasoby internetowych danych rosną znacznie wolniej niż zbiory danych wykorzystywane do treningu sztucznej inteligencji. W pracy opublikowanej w zeszłym roku grupa naukowców przewidziała, że jeśli obecne trendy w zakresie szkolenia sztucznej inteligencji się utrzymają, zasobów danych językowych o wysokiej jakości, potrzebnych do szkolenia AI, zabraknie nam jeszcze przed 2026 rokiem. Badacze oszacowali również, że dane językowe niskiej jakości zostaną wyczerpane gdzieś między 2030 a 2050 rokiem. Z kolei wszystkie dane obrazowe wyczerpią się między 2030 a 2060 rokiem.
Powyższe informacje oznaczają to, że rozwój sztucznej inteligencji może czekać w przyszłości spowolnienie. O ile jest to prawdopodobnie dobra wiadomość dla osób, które obawiają się potencjalnych negatywnych konsekwencji dalszego rozwoju AI, to zła wiadomość dla całego środowiska naukowego i środowiska IT.
Na szczęście sytuacja może nie być tak zła jak się wydaje. Istnieje bowiem szansa na to, że potencjalnym niedoborom danym uda się zaradzić.
Po pierwsze, być może naukowcy będą w stanie ulepszyć swoje algorytmy tak, aby były w stanie efektywniej wykorzystywać dane, do których już mają dostęp. Kolejną opcją będzie wykorzystanie sztucznej inteligencji do tworzenia syntetycznych danych treningowych. Ba w kilku projektach wykorzystuje się już dane syntetyczne. W przyszłości ten proceder może stać się powszechniejszy.
Programiści trenujący algorytmy AI szukają też treści poza bezpłatną przestrzenią online. Przeczesują dane pochodzące z dużych wydawnictw oraz repozytoriów offline. Nadal istnieje bowiem mnóstwo tekstów, które nigdy nie doczekały się cyfryzacji.
Nie pozostaje nam nic innego, jak mieć nadzieję na to, że potencjalne sposoby na niedobory danych do treningu AI się sprawdzą. To dlatego, że usługi wykorzystujące sztuczną inteligencję znajdują zastosowania w coraz szerszym zakresie dziedzin, a ich tempo rozwoju może wpływać na tempo rozwoju całej cywilizacji.
Źródło: The Conversation, fot. tyt. Unsplash/Possessed Photography