ServiceNow Research apresentou o EnterpriseOps-Gym, um novo benchmark para avaliação de agentes autônomos de IA em ambientes profissionais. Esta ferramenta aborda a falta de padrões para planejamento de longo prazo e fluxos de trabalho complexos.

EnterpriseOps-Gym: Novo benchmark para agentes de IA
O EnterpriseOps-Gym foi desenvolvido para avaliar o planejamento agente em ambientes empresariais realistas. Ele inclui uma plataforma Docker conteinerizada que simula oito domínios críticos de negócios, incluindo atendimento ao cliente e RH.
O benchmark abrange 164 bancos de dados relacionais e 512 ferramentas funcionais, mostrando que os modelos atuais de IA têm uma taxa de sucesso abaixo de 40%. Esta ferramenta pode ajudar a identificar e fechar lacunas de desempenho na tecnologia de IA para uso profissional.
Fonte: MarkTechPost
Leia também: Mistral Forge permite que empresas criem seus próprios modelos de IA