Hastighet

Ny studie viser at ledende AI‑agenter ikke fullfører de fleste frilansprosjekter på et akseptabelt nivå.

En studie fra Scale AI og Center for AI Safety, publisert på arXiv og ennå ikke fagfellevurdert, introduserer Remote Labor Index (RLI) for å måle evnen til kunstlig intelligens (KI) til å utføre økonomisk verdifullt fjernarbeid. Forskerne testet seks avanserte agenter, deriblant Gemini 2.5 Pro, GPT-5 og Anthropic Sonnet 4.5, på 23 kategorier som grafisk design, produktdesign, CAD og spillutvikling. Modellenes leveranser ble sammenlignet med menneskelige frilansstandarder; samlet automatiseringsrate var under 3 prosent. Manus oppnådde høyest score med 2,5 prosent, mens Grok 4 og Claude Sonnet 2,5 nådde 2,1 prosent.

RLI vurderer agenter som kan samhandle med digitale verktøy og utføre flerstegsoppgaver, og forskerne brukte en Elo-metrikk for å sammenligne ytelse. Studien omtaler et «stort gap» mellom lovnader om omfattende automatisering og de faktiske evnene til dagens systemer, et funn som er aktuelt i AI-nyheter.

Kort kontekst for Norge: Studien handler om automatisering av fjernbasert frilansarbeid, en arbeidsform som også finnes i norsk arbeidsliv, og resultatene kan være relevante for norske frilansere og oppdragsmarkeder.

Kilde: https://zdnet.com/article/the-best-ai-agents-are-terrible-freelancers-for-now | Sammendraget er KI-generert med OpenAI API av Ainy.no

Les også:

Tre lærdommer fra maskinlæring: frister, hvile og flyt

Relatert AI Nyheter