Banner de Make.com

ServiceNow lanza EnterpriseOps-Gym para la evaluación de LLM

Este artículo fue generado con ayuda de IA y puede contener errores.

ServiceNow Research ha presentado EnterpriseOps-Gym, un nuevo benchmark para evaluar agentes autónomos en entornos profesionales. Esta herramienta aborda la falta de estándares para la planificación a largo plazo y flujos de trabajo complejos.

EnterpriseOps-Gym: Nuevo benchmark para LLM

EnterpriseOps-Gym es un entorno Docker containerizado que simula ocho dominios empresariales críticos, incluyendo servicio al cliente y servicios de TI. El benchmark contiene 164 bases de datos relacionales y 512 herramientas funcionales, con 1.150 tareas curadas por expertos.

La herramienta es importante para evaluar el rendimiento de los grandes modelos de lenguaje (LLM) en entornos profesionales complejos. Los resultados muestran que los modelos existentes tienen una tasa de éxito inferior al 40%, lo que indica la necesidad de mejoras en la planificación estratégica y la ejecución de tareas.

Fuente: MarkTechPost

Lee también: El Pentágono planea entrenamiento de IA con datos clasificados