Dieser Artikel wurde mit Hilfe von KI erstellt und kann Fehler enthalten.

⚡ Tool-Empfehlung: Automatisieren Sie Ihre KI-Workflows mit Make.com — Automatisierung ohne Code

ServiceNow Research hat EnterpriseOps-Gym eingeführt, einen neuen Benchmark zur Bewertung autonomer Agenten in professionellen Umgebungen. Dieses Tool adressiert den Mangel an Standards für langfristige Planung und komplexe Arbeitsabläufe.

ServiceNow lanserer EnterpriseOps-Gym for LLM-evaluering — KI-generierte Illustration

Geschwindigkeit

EnterpriseOps-Gym: Neuer Benchmark für LLMs

EnterpriseOps-Gym ist eine containerisierte Docker-Umgebung, die acht kritische Geschäftsfelder simuliert, darunter Kundenservice und IT-Dienstleistungen. Der Benchmark umfasst 164 relationale Datenbanken und 512 funktionale Werkzeuge sowie 1.150 von Experten kuratierte Aufgaben.

Das Tool ist wichtig, um die Leistung großer Sprachmodelle (LLMs) in komplexen professionellen Settings zu bewerten. Die Ergebnisse zeigen, dass bestehende Modelle eine Erfolgsrate von unter 40 % haben, was den Bedarf an Verbesserungen in strategischer Planung und Aufgabenausführung verdeutlicht.

Quelle: MarkTechPost

Lesen Sie auch: Pentagon plant KI-Training mit klassifizierten Daten

EnterpriseOps-Gym: Neuer Benchmark für LLMs

Verwandte KI Nachrichten