Dieser Artikel wurde mit Hilfe von KI erstellt und kann Fehler enthalten.

⚡ Tool-Empfehlung: Automatisieren Sie Ihre KI-Workflows mit Make.com — Automatisierung ohne Code

ServiceNow Research hat EnterpriseOps-Gym vorgestellt, einen neuen Benchmark zur Bewertung autonomer KI-Agenten in professionellen Umgebungen. Dieses Tool adressiert den Mangel an Standards für langfristige Planung und komplexe Arbeitsabläufe.

ServiceNow lanserer EnterpriseOps-Gym for AI-modeller — KI-generierte Illustration

Geschwindigkeit

EnterpriseOps-Gym: Neuer Benchmark für KI-Agenten

EnterpriseOps-Gym wurde entwickelt, um agentenbasierte Planung in realistischen Unternehmensumgebungen zu evaluieren. Es beinhaltet eine containerisierte Docker-Plattform, die acht kritische Geschäftsfelder simuliert, darunter Kundenservice und Personalwesen.

Der Benchmark umfasst 164 relationale Datenbanken und 512 funktionale Werkzeuge und zeigt, dass aktuelle KI-Modelle eine Erfolgsrate von unter 40 % aufweisen. Dieses Tool kann dabei helfen, Leistungsdefizite in der KI-Technologie für den professionellen Einsatz zu identifizieren und zu schließen.

Quelle: MarkTechPost

Lesen Sie auch: Mistral Forge ermöglicht Unternehmen die Erstellung eigener KI-Modelle

EnterpriseOps-Gym: Neuer Benchmark für KI-Agenten

Verwandte KI Nachrichten