Denne artikkelen er generert med hjelp av KI og kan inneholde feil.

⚡ Anbefalt verktøy: Automatiser AI-arbeidsflyter med Make.com — Bygg automatiseringer uten koding

ServiceNow Research har introdusert EnterpriseOps-Gym, en ny benchmark for vurdering av autonome agenter i profesjonelle miljøer. Dette verktøyet adresserer mangelen på standarder for langvarig planlegging og komplekse arbeidsflyter.

ServiceNow lanserer EnterpriseOps-Gym for LLM-evaluering — KI-generert illustrasjon

Hastighet

EnterpriseOps-Gym: Ny benchmark for LLM-er

EnterpriseOps-Gym er en containerisert Docker-miljø som simulerer åtte kritiske forretningsdomener, inkludert kundeservice og IT-tjenester. Benchmarken inneholder 164 relasjonsdatabaser og 512 funksjonelle verktøy, med 1 150 ekspertkuraterte oppgaver.

Verktøyet er viktig for å evaluere ytelsen til store språkmodeller (LLM-er) i komplekse profesjonelle settinger. Resultatene viser at eksisterende modeller har en suksessrate på under 40%, noe som indikerer behovet for forbedringer i strategisk planlegging og oppgaveutførelse.

Kilde: MarkTechPost

Les også: Pentagon planlegger AI-trening på klassifiserte data

EnterpriseOps-Gym: Ny benchmark for LLM-er

Relaterte AI-nyheter