ServiceNow Research har introdusert EnterpriseOps-Gym, en ny benchmark for vurdering av autonome agenter i profesjonelle miljøer. Dette verktøyet adresserer mangelen på standarder for langvarig planlegging og komplekse arbeidsflyter.

EnterpriseOps-Gym: Ny benchmark for LLM-er
EnterpriseOps-Gym er en containerisert Docker-miljø som simulerer åtte kritiske forretningsdomener, inkludert kundeservice og IT-tjenester. Benchmarken inneholder 164 relasjonsdatabaser og 512 funksjonelle verktøy, med 1 150 ekspertkuraterte oppgaver.
Verktøyet er viktig for å evaluere ytelsen til store språkmodeller (LLM-er) i komplekse profesjonelle settinger. Resultatene viser at eksisterende modeller har en suksessrate på under 40%, noe som indikerer behovet for forbedringer i strategisk planlegging og oppgaveutførelse.
Kilde: MarkTechPost
Les også: Pentagon planlegger AI-trening på klassifiserte data