Hastighet

Google DeepMind har i offentlig preview lansert Gemini 2.5 Computer Use, en modell som kan navigere og utføre handlinger i en nettleser på samme måte som et menneske.

Modellen er bygd på Gemini 2.5 Pro og kan klikke, skrive, scrolle og hente URLer og skjermbilder for å analysere brukergrensesnittet; den beskriver samtidig sine handlinger og resonnement i en synlig tekstboks og kan be om bekreftelse ved sensitive oppgaver, for eksempel kjøp. Gemini 2.5 Computer Use bruker en iterativ løkkefunksjon som holder oversikt over nylige handlinger for å bestemme neste steg. Google publiserte demovideoer som viser automatiske oppdateringer i et CRM-system og omorganisering av notater i Jamboard (plattformen ble avsluttet ved slutten av fjoråret). Ifølge et blogginnlegg fra Google skal modellen ha overgått verktøy fra Anthropic og OpenAI på flere nett- og mobilkontrollmål, og den er nå tilgjengelig via Gemini API i Google AI, gjennom Vertex AI og som demo i Browserbase. Modellen har innebygde sikkerhetskontroller utviklere kan bruke for å hindre uønskede handlinger, men Google advarer om vanlige begrensninger som hallusinasjoner og svakheter i kompleks logisk slutning. I AI nyheter følges slike nettleser-boter tett, siden flere aktører nå tilbyr lignende løsninger.

For norske utviklere og bedrifter kan dette være relevant fordi modellen er tilgjengelig via plattformer som Vertex AI og Gemini API; for aktører som jobber med kunstlig intelligens (KI) kan nettleseradferden ha praktisk betydning ved utvikling og testing av webbaserte løsninger.

Kilde: https://zdnet.com/article/this-new-google-gemini-model-scrolls-the-internet-just-like-you-do-how-it-works | Sammendraget er KI-generert med OpenAI API av Ainy.no

Les også:

Hva betyr det å sette maskinlæring i produksjon?

Relatert AI Nyheter