Este artículo fue generado con ayuda de IA y puede contener errores.

⚡ Herramienta recomendada: Automatiza flujos de trabajo de IA con Make.com — Automatiza sin programar

ServiceNow Research ha presentado EnterpriseOps-Gym, un nuevo benchmark para evaluar agentes autónomos en entornos profesionales. Esta herramienta aborda la falta de estándares para la planificación a largo plazo y flujos de trabajo complejos.

ServiceNow lanserer EnterpriseOps-Gym for LLM-evaluering — Ilustración generada por IA

Velocidad

EnterpriseOps-Gym: Nuevo benchmark para LLM

EnterpriseOps-Gym es un entorno Docker containerizado que simula ocho dominios empresariales críticos, incluyendo servicio al cliente y servicios de TI. El benchmark contiene 164 bases de datos relacionales y 512 herramientas funcionales, con 1.150 tareas curadas por expertos.

La herramienta es importante para evaluar el rendimiento de los grandes modelos de lenguaje (LLM) en entornos profesionales complejos. Los resultados muestran que los modelos existentes tienen una tasa de éxito inferior al 40%, lo que indica la necesidad de mejoras en la planificación estratégica y la ejecución de tareas.

Fuente: MarkTechPost

Lee también: El Pentágono planea entrenamiento de IA con datos clasificados

EnterpriseOps-Gym: Nuevo benchmark para LLM

Noticias de IA relacionadas