Gemini 1.5 już jest. Ten model AI ma zwiastować rewolucję

Piotr MalinowskiSkomentuj
Gemini 1.5 już jest. Ten model AI ma zwiastować rewolucję

Google zaprezentowało właśnie Gemini 1.5, czyli model nowej generacji. Ma on zapewnić przełom w kwestii rozumienia szerokiego kontekstu. Wszystko za sprawą zwiększenia liczny informacji, którą technologia jest w stanie przetworzyć. Koncern twierdzi przy okazji, że ogłoszony właśnie projekt może pełnić rolę zwiastuna tego, co czeka nas w przyszłości. Cóż, może warto zerknąć na to nieco bliżej?

Gemini 1.5 – co to w ogóle jest?

Trzeba przyznać, że Google ma tempo – zaledwie tydzień temu byliśmy świadkami debiutu kilku produktów wykorzystujących sztuczną inteligencję. Teraz mamy do czynienia z kolejnymi nowinkami, które przydadzą się wielu użytkownikom. Główną z nich jest rzecz jasna model językowy Gemini 1.5 zapewniający „znacznie większą wydajność”. Dostęp do niego zyskali już testerzy mogący skorzystać z okna kontekstowego o pojemności do miliona tokenów. Standardowym limitem będzie 128 tysięcy tokenów, co warto mieć na uwadze. Okej, ale z czym to się w ogóle je?

Gemini 1.5 stanowi owoc badań nad architekturą Transformer (wielka sieć neuronowa) oraz MoE (mniejsze i wyspecjalizowane sieci neuronowe). Wydajność modelu jest wysoka głównie dzięki możliwości selektywnego aktywowania najbardziej odpowiednich ścieżek w swoich sieciach neuronowych. Pozwala to na szybszą naukę złożonych zadań – dlatego też Google jest w stanie tak sprawnie opracowywać kolejne technologie.

Źródło: Google

Opublikowany właśnie model może uruchomić do miliona tokenów. To spory wzrost, bowiem Gemini 1.0 charakteryzował się pojemnością na poziomie zaledwie 32 tysięcy tokenów. Oznacza to więc, że Gemini 1.5 jest w stanie przetworzyć za jednym razem 1 godzinę filmu, 11 godzin nagrania dźwiękowego, bazę kodów zawierającą ponad 30 tysięcy linijek czy ponad 700 tysięcy słów tekstu. Co ciekawe, już rozpoczęły się testy okna kontekstowego przetwarzającego aż 10 milionów tokenów. Brzmi to wręcz absurdalnie.

Google chwali się przy okazji, że model potrafi analizować, sklasyfikować i podsumować bardzo dużą ilość danych w ramach pojedynczego prompta. Za przykład podano 402 strony transkrypcji z misji Apollo 11 na Księżyc. Sztucznej inteligencji udało się wyciągnąć wnioski na temat rozmów, wydarzeń czy innych szczegółów. Robi wrażenie.

Źródło: Google

Gemini 1.5 to także lepsze rozumienie różnorodnych typów danych. AI bez problemu przetworzy i przeanalizuje trwający kilkadziesiąt minut film. Może go streścić, zinterpretować szczegóły czy wyodrębnić poszczególne elementy. Trzeba przyznać, że mamy do czynienia ze świetnym narzędziem mogącym przydać się w szkole, pracy czy na studiach.

Model językowy przewyższa poprzednią wersję nawet o 87%, także jeśli chodzi o umiejętności uczenia się na kontekście. Użytkownik nie jest więc zobowiązany, by podawać dodatkowe szczegóły – sztuczna inteligencja sama się powinna wszystkiego domyślić. Konsumenci niestety nie mają jeszcze do tego wszystkiego dostępu, lecz wkrótce ten stan rzeczy powinien ulec zmianie.

Na samym początku udostępniony zostanie Gemini 1.5 zawierający okno kontekstowe o pojemności 128 tysięcy tokenów. Potem ten limit zwiększy się do miliona, a co potem? Czas pokaże.

Źródło: Google / Zdjęcie otwierające: Google

Udostępnij

Piotr MalinowskiDziennikarz z pasji i wykształcenia. Jest związany z popularnymi serwisami branżowymi, gdzie od siedmiu lat publikuje treści o nowych technologiach, gamingu oraz „ludziach internetu”. Fascynuje go wpływ influencer marketingu na społeczeństwo oraz szeroko pojęte przyczyny i skutki nierówności społecznych. Prywatnie fan powieści/filmów grozy, gier studia Piranha Bytes, podcastów kryminalnych, dobrej kawy oraz rowerowych wycieczek.