ServiceNow Research hat EnterpriseOps-Gym eingeführt, einen neuen Benchmark zur Bewertung autonomer Agenten in professionellen Umgebungen. Dieses Tool adressiert den Mangel an Standards für langfristige Planung und komplexe Arbeitsabläufe.

EnterpriseOps-Gym: Neuer Benchmark für LLMs
EnterpriseOps-Gym ist eine containerisierte Docker-Umgebung, die acht kritische Geschäftsfelder simuliert, darunter Kundenservice und IT-Dienstleistungen. Der Benchmark umfasst 164 relationale Datenbanken und 512 funktionale Werkzeuge sowie 1.150 von Experten kuratierte Aufgaben.
Das Tool ist wichtig, um die Leistung großer Sprachmodelle (LLMs) in komplexen professionellen Settings zu bewerten. Die Ergebnisse zeigen, dass bestehende Modelle eine Erfolgsrate von unter 40 % haben, was den Bedarf an Verbesserungen in strategischer Planung und Aufgabenausführung verdeutlicht.
Quelle: MarkTechPost
Lesen Sie auch: Pentagon plant KI-Training mit klassifizierten Daten