Denne artikkelen er generert med hjelp av KI og kan innehalde feil.
ServiceNow Research har introdusert EnterpriseOps-Gym, ein ny benchmark for vurdering av autonome AI-agentar i profesjonelle miljø. Dette verktøyet adresserer mangelen på standardar for langvarig planlegging og komplekse arbeidsflytar.

EnterpriseOps-Gym: Ny benchmark for AI-agentar
EnterpriseOps-Gym er utvikla for å evaluere agentisk planlegging i realistiske bedriftsmiljø. Den inneheld ein containerisert Docker-plattform som simulerer åtte kritiske forretningsdomene, inkludert kundeteneste og HR.
Benchmarken omfattar 164 relasjonsdatabasar og 512 funksjonelle verktøy, og syner at noverande AI-modellar har ein suksessrate under 40 %. Dette verktøyet kan hjelpe med å identifisere og lukke prestasjonsgap i AI-teknologi for profesjonell bruk.
Kjelde: MarkTechPost