ServiceNow har lansert EVA (Evaluation of Voice Agents), eit nytt rammeverk for evaluering av talebaserte AI-agentar. Løysinga er utvikla for å måle både nøyaktigheit og brukaroppleving i samtalar.

EVA – nytt rammeverk for evaluering av talebaserte agentar
EVA er eit heilskapleg evalueringsrammeverk som analyserer komplette, fleirstegs talekonversasjonar. Det gir to hovudscore: EVA-A, som måler nøyaktigheit i oppgaveløysing, og EVA-X, som vurderer kvaliteten på brukaropplevinga. Samla gir desse ei meir komplett forståing av korleis ein AI-agent faktisk presterer i praksis.
Rammeverket skil seg ut ved å kombinere evaluering av både oppgaveløysing og samtalekvalitet i éin modell. Tidlegare metodar har ofte vurdert desse aspekta separat, noko som har gjort det vanskeleg å få eit heilskapleg bilete av ytelsen.
EVA inkluderer òg eit datasett med 50 scenario frå luftfartsbransjen, utvikla for å teste ulike typar samtaleinteraksjonar og komplekse brukarbehov.
Kjelde: Hugging Face
Les òg: Meta AI introduserer Hyperagenter for sjølvforbetring

