ServiceNow Research ha presentado EnterpriseOps-Gym, un nuevo benchmark para evaluar agentes autónomos en entornos profesionales. Esta herramienta aborda la falta de estándares para la planificación a largo plazo y flujos de trabajo complejos.

EnterpriseOps-Gym: Nuevo benchmark para LLM
EnterpriseOps-Gym es un entorno Docker containerizado que simula ocho dominios empresariales críticos, incluyendo servicio al cliente y servicios de TI. El benchmark contiene 164 bases de datos relacionales y 512 herramientas funcionales, con 1.150 tareas curadas por expertos.
La herramienta es importante para evaluar el rendimiento de los grandes modelos de lenguaje (LLM) en entornos profesionales complejos. Los resultados muestran que los modelos existentes tienen una tasa de éxito inferior al 40%, lo que indica la necesidad de mejoras en la planificación estratégica y la ejecución de tareas.
Fuente: MarkTechPost
Lee también: El Pentágono planea entrenamiento de IA con datos clasificados