ServiceNow Research ha presentado EnterpriseOps-Gym, un nuevo benchmark para evaluar agentes autónomos de IA en entornos profesionales. Esta herramienta aborda la falta de estándares para la planificación a largo plazo y flujos de trabajo complejos.

EnterpriseOps-Gym: Nuevo benchmark para agentes de IA
EnterpriseOps-Gym ha sido desarrollado para evaluar la planificación agente en entornos empresariales realistas. Incluye una plataforma Docker containerizada que simula ocho dominios empresariales críticos, incluyendo servicio al cliente y recursos humanos.
El benchmark abarca 164 bases de datos relacionales y 512 herramientas funcionales, y muestra que los modelos actuales de IA tienen una tasa de éxito inferior al 40%. Esta herramienta puede ayudar a identificar y cerrar brechas de rendimiento en la tecnología de IA para uso profesional.
Fuente: MarkTechPost
Lee también: Mistral Forge permite a las empresas crear sus propios modelos de IA