ServiceNow Research har introdusert EnterpriseOps-Gym, ein ny benchmark for vurdering av autonome agentar i profesjonelle miljø. Dette verktøyet adresserer mangelen på standardar for langvarig planlegging og komplekse arbeidsflytar.

EnterpriseOps-Gym: Ny benchmark for LLM-ar
EnterpriseOps-Gym er eit containerisert Docker-miljø som simulerer åtte kritiske forretningsdomene, inkludert kundeteneste og IT-tenester. Benchmarken inneheld 164 relasjonsdatabasar og 512 funksjonelle verktøy, med 1 150 ekspertkuraterte oppgåver.
Verktøyet er viktig for å evaluere ytelsen til store språkmodellar (LLM-ar) i komplekse profesjonelle settingar. Resultata viser at eksisterande modellar har ein suksessrate på under 40 %, noko som indikerer behovet for forbetringar i strategisk planlegging og oppgåveutføring.
Kjelde: MarkTechPost