Google zaprezentowało właśnie Gemini 1.5, czyli model nowej generacji. Ma on zapewnić przełom w kwestii rozumienia szerokiego kontekstu. Wszystko za sprawą zwiększenia liczny informacji, którą technologia jest w stanie przetworzyć. Koncern twierdzi przy okazji, że ogłoszony właśnie projekt może pełnić rolę zwiastuna tego, co czeka nas w przyszłości. Cóż, może warto zerknąć na to nieco bliżej?
Gemini 1.5 – co to w ogóle jest?
Trzeba przyznać, że Google ma tempo – zaledwie tydzień temu byliśmy świadkami debiutu kilku produktów wykorzystujących sztuczną inteligencję. Teraz mamy do czynienia z kolejnymi nowinkami, które przydadzą się wielu użytkownikom. Główną z nich jest rzecz jasna model językowy Gemini 1.5 zapewniający „znacznie większą wydajność”. Dostęp do niego zyskali już testerzy mogący skorzystać z okna kontekstowego o pojemności do miliona tokenów. Standardowym limitem będzie 128 tysięcy tokenów, co warto mieć na uwadze. Okej, ale z czym to się w ogóle je?
- Sprawdź również: SkyShowtime wprowadza reklamy do Polski. Znamy cenę subskrypcji
Gemini 1.5 stanowi owoc badań nad architekturą Transformer (wielka sieć neuronowa) oraz MoE (mniejsze i wyspecjalizowane sieci neuronowe). Wydajność modelu jest wysoka głównie dzięki możliwości selektywnego aktywowania najbardziej odpowiednich ścieżek w swoich sieciach neuronowych. Pozwala to na szybszą naukę złożonych zadań – dlatego też Google jest w stanie tak sprawnie opracowywać kolejne technologie.
Opublikowany właśnie model może uruchomić do miliona tokenów. To spory wzrost, bowiem Gemini 1.0 charakteryzował się pojemnością na poziomie zaledwie 32 tysięcy tokenów. Oznacza to więc, że Gemini 1.5 jest w stanie przetworzyć za jednym razem 1 godzinę filmu, 11 godzin nagrania dźwiękowego, bazę kodów zawierającą ponad 30 tysięcy linijek czy ponad 700 tysięcy słów tekstu. Co ciekawe, już rozpoczęły się testy okna kontekstowego przetwarzającego aż 10 milionów tokenów. Brzmi to wręcz absurdalnie.
Google chwali się przy okazji, że model potrafi analizować, sklasyfikować i podsumować bardzo dużą ilość danych w ramach pojedynczego prompta. Za przykład podano 402 strony transkrypcji z misji Apollo 11 na Księżyc. Sztucznej inteligencji udało się wyciągnąć wnioski na temat rozmów, wydarzeń czy innych szczegółów. Robi wrażenie.
Gemini 1.5 to także lepsze rozumienie różnorodnych typów danych. AI bez problemu przetworzy i przeanalizuje trwający kilkadziesiąt minut film. Może go streścić, zinterpretować szczegóły czy wyodrębnić poszczególne elementy. Trzeba przyznać, że mamy do czynienia ze świetnym narzędziem mogącym przydać się w szkole, pracy czy na studiach.
Model językowy przewyższa poprzednią wersję nawet o 87%, także jeśli chodzi o umiejętności uczenia się na kontekście. Użytkownik nie jest więc zobowiązany, by podawać dodatkowe szczegóły – sztuczna inteligencja sama się powinna wszystkiego domyślić. Konsumenci niestety nie mają jeszcze do tego wszystkiego dostępu, lecz wkrótce ten stan rzeczy powinien ulec zmianie.
- Przeczytaj również: Jego komputer się przegrzewał. Okazuje się, że za wszystkim stały mrówki
Na samym początku udostępniony zostanie Gemini 1.5 zawierający okno kontekstowe o pojemności 128 tysięcy tokenów. Potem ten limit zwiększy się do miliona, a co potem? Czas pokaże.
Źródło: Google / Zdjęcie otwierające: Google