ServiceNow Research hat EnterpriseOps-Gym vorgestellt, einen neuen Benchmark zur Bewertung autonomer KI-Agenten in professionellen Umgebungen. Dieses Tool adressiert den Mangel an Standards für langfristige Planung und komplexe Arbeitsabläufe.

EnterpriseOps-Gym: Neuer Benchmark für KI-Agenten
EnterpriseOps-Gym wurde entwickelt, um agentenbasierte Planung in realistischen Unternehmensumgebungen zu evaluieren. Es beinhaltet eine containerisierte Docker-Plattform, die acht kritische Geschäftsfelder simuliert, darunter Kundenservice und Personalwesen.
Der Benchmark umfasst 164 relationale Datenbanken und 512 funktionale Werkzeuge und zeigt, dass aktuelle KI-Modelle eine Erfolgsrate von unter 40 % aufweisen. Dieses Tool kann dabei helfen, Leistungsdefizite in der KI-Technologie für den professionellen Einsatz zu identifizieren und zu schließen.
Quelle: MarkTechPost
Lesen Sie auch: Mistral Forge ermöglicht Unternehmen die Erstellung eigener KI-Modelle