Ny benchmark sporer feil i LLM multi-agent-systemer

Forskere fra Penn State og Duke presenterer Who&When, en benchmark for automatisk feilattribusjon i LLM Multi‑Agent-systemer, omtalt i AI-nyheter.

Artikkelen formaliserer ‘automated failure attribution’, bygger Who&When med 127 feillogger og menneskeannotasjoner for hvem, når og hvorfor, og evaluerer tre metoder: All-at-Once, Step-by-Step og Binary Search. Eksperimenter med GPT‑4o viste at beste enkeltmetode identifiserte riktig agent i 53,5% av tilfellene og korrekt feilsteg i 14,2%.

Forskerne skriver at hybride tilnærminger kan bedre ytelsen, men til høy kostnad. Arbeidet, med medforfattere fra Google DeepMind, Meta og flere universiteter, er akseptert som Spotlight på ICML 2025; kode og datasett er gjort open source. Dette er relevant for norske og nordiske utviklere som jobber med kunstlig intelligens (KI).

Kilde: https://syncedreview.com/2025/08/14/which-agent-causes-task-failures-and-whenresearchers-from-psu-and-duke-explores-automated-failure-attribution-of-llm-multi-agent-systems/ | Sammendraget er KI-generert med OpenAI API av Ainy.no