Sztuczna inteligencja Google zyskała „słuch”. Co to oznacza?

Aleksander PiskorzSkomentuj
Sztuczna inteligencja Google zyskała „słuch”. Co to oznacza?

Najnowsza aktualizacja chatbota Google, Gemini 1.5 Pro, wyposażyła ten model AI w możliwość przetwarzania plików audio. Opisywana funkcjonalność umożliwi użytkowników wyodrębnianie informacji z wielu źródeł – takich, jak chociażby rozmowy ze spotkań czy też ścieżki dialogowe z filmów i seriali. Google chce w ten sposób wyeliminować naszą zależność od klasycznych transkrypcji tekstowych.

Podczas wydarzenia Google Next ogłoszono, iż Gemini 1.5 Pro będzie dostępny dla wszystkich za pośrednictwem platformy Amerykanów – Vertex AI (podobnie, jak miało to miejsce w przypadku poprzednich modeli). Początkowo, premiera modelu 1.5 odbyła się w lutym tego roku.

Gemini 1.5 na razie niedostępny w wersji web

Nowa, zaktualizowana wersja Gemini Pro, pozycjonowana jako opcja pośrednia w serii Gemini, pod względem wydajności przewyższa nawet Gemini Ultra, najbardziej zaawansowany model z tej serii. Według Google, Gemini 1.5 Pro jest w stanie swobodnie interpretować złożone polecenia i niemal całkowicie eliminuje konieczność dodatkowego “dostrajania” modelu.

Niestety, Gemini 1.5 Pro jest dostępny jedynie dla tych osób, które posiadają stały dostęp do Vertex AI oraz AI Studio. WIększa część użytkowników korzysta z chatbotów Google bezpośrednio poprzez interfejs webowy – jest on łatwiejszy w obsłudze i bardziej zrozumiały dla początkujących. Tu warto przypomnieć, iż Google od jakiegoś czasu oferuje możliwość skorzystania ze swojego najbardziej zaawansowanego modelu AI w ramach subskrypcji Google One – przez 2 pierwsze miesiące w pełni za darmo.

Obrazy generowane przez AI mają być lepsze

Oprócz Gemini 1.5 Pro, Google zaktualizowało również inny główny model sztucznej inteligencji, Imagen 2. To z kolei AI odpowiedzialne za zamianę tekstu na obraz – działające w tle modeli językowych Gemini. Od teraz, użytkownicy dostaną dostęp do takich funkcjonalności jak inpainting czy outpainting, pozwalających na szybkie wyeliminowanie artefaktów z obrazków. Co ciekawe, Amerykanie z Mountain View zdecydowali się także wdrożyć nowy, cyfrowy znak wodny SynthID, który będzie widoczny na wszystkich obrazach generowanych przez wspomniany model Imagen. Ten znak wodny, niewidoczny dla odbiorców, ma zidentyfikować pochodzenie obrazu po przeanalizowaniu pliku za pomocą określonego narzędzia.

Wiele funkcji wprowadzonych w Imagen, w szczególności wspomniany inpainting i outpainting, to rzeczy już dostępne u konkurencji – chociażby w przypadku Stability AI czy Getty Generative AI. Nie można również zapomnieć o flagowcach Samsunga z serii Galaxy S24 – te również oferują podobną funkcję podczas edytowania zdjęć w galerii.

Co dalej? Wiadomo, iż Google ma ogromen plany na integrację sztucznej inteligencji niemal ze wszystkimi swoimi produktami – w ostatnim czasie pisaliśmy dla Was o tym, iż Amerykanie mogą zamknąć część wyszukiwarki za specjalnie zaprojektowanym paywallem

Przyszłość Google na tle konkurencji wygląda stabilnie, choć w kuluarach pojawiają się informacje o tym, iż Amerykanie borykają się z dużymi problemami związanymi z innowacjami. WIelu pracowników DeepMind i działów odpowiedzialnych za rozwój AI odeszło “na swoje” lub do mniejszych startupów. 

Nic więc dziwnego, że Google robi co może, aby pozostać konkurencyjnym. 

źródło: Google / fot. Google

Udostępnij

Aleksander PiskorzDziennikarz technologiczny - od niemal dekady publikujący w największych polskich mediach traktujących o nowych technologiach. Autor newslettera tech-pigułka. Obecnie zajmuje się wszystkim co związane z szeroko pojętym contentem i content marketingiem Jako konsultant pomaga również budować marki osobiste i cyfrowe produkty w branży technologicznej. Entuzjasta sztucznej inteligencji. W trybie offline fan roweru szosowego, kawy specialty i dobrej czekolady.