ServiceNow Research har introdusert EnterpriseOps-Gym, en ny benchmark for vurdering av autonome AI-agenter i profesjonelle miljøer. Dette verktøyet adresserer mangelen på standarder for langvarig planlegging og komplekse arbeidsflyter.

EnterpriseOps-Gym: Ny benchmark for AI-agenter
EnterpriseOps-Gym er utviklet for å evaluere agentisk planlegging i realistiske bedriftsmiljøer. Den inneholder en containerisert Docker-plattform som simulerer åtte kritiske forretningsdomener, inkludert kundeservice og HR.
Benchmarken omfatter 164 relasjonsdatabaser og 512 funksjonelle verktøy, og viser at nåværende AI-modeller har en suksessrate under 40%. Dette verktøyet kan hjelpe med å identifisere og lukke prestasjonsgap i AI-teknologi for profesjonell bruk.
Kilde: MarkTechPost