Banner do Make.com

ServiceNow lança EnterpriseOps-Gym para avaliação de LLMs

Este artigo foi gerado com ajuda de IA e pode conter erros.

ServiceNow Research apresentou o EnterpriseOps-Gym, um novo benchmark para avaliação de agentes autônomos em ambientes profissionais. Esta ferramenta aborda a falta de padrões para planejamento de longo prazo e fluxos de trabalho complexos.

EnterpriseOps-Gym: Novo benchmark para LLMs

O EnterpriseOps-Gym é um ambiente Docker containerizado que simula oito domínios empresariais críticos, incluindo atendimento ao cliente e serviços de TI. O benchmark contém 164 bancos de dados relacionais e 512 ferramentas funcionais, com 1.150 tarefas curadas por especialistas.

A ferramenta é importante para avaliar o desempenho de grandes modelos de linguagem (LLMs) em contextos profissionais complexos. Os resultados mostram que os modelos existentes têm uma taxa de sucesso inferior a 40%, indicando a necessidade de melhorias no planejamento estratégico e na execução de tarefas.

Fonte: MarkTechPost

Leia também: Pentágono planeja treinamento de IA com dados classificados