Make.com-banner

ServiceNow lanserer EnterpriseOps-Gym for LLM-evaluering

Denne artikkelen er generert med hjelp av KI og kan innehalde feil.

ServiceNow Research har introdusert EnterpriseOps-Gym, ein ny benchmark for vurdering av autonome agentar i profesjonelle miljø. Dette verktøyet adresserer mangelen på standardar for langvarig planlegging og komplekse arbeidsflytar.

EnterpriseOps-Gym: Ny benchmark for LLM-ar

EnterpriseOps-Gym er eit containerisert Docker-miljø som simulerer åtte kritiske forretningsdomene, inkludert kundeteneste og IT-tenester. Benchmarken inneheld 164 relasjonsdatabasar og 512 funksjonelle verktøy, med 1 150 ekspertkuraterte oppgåver.

Verktøyet er viktig for å evaluere ytelsen til store språkmodellar (LLM-ar) i komplekse profesjonelle settingar. Resultata viser at eksisterande modellar har ein suksessrate på under 40 %, noko som indikerer behovet for forbetringar i strategisk planlegging og oppgåveutføring.

Kjelde: MarkTechPost

Les òg: Pentagon planlegg AI-trening på klassifiserte data