ServiceNow har lansert EVA (Evaluation of Voice Agents), et nytt rammeverk for evaluering av talebaserte AI-agenter. Løsningen er utviklet for å måle både nøyaktighet og brukeropplevelse i samtaler.

EVA – nytt rammeverk for evaluering av talebaserte agenter
EVA er et helhetlig evalueringsrammeverk som analyserer komplette, flerstegs talekonversasjoner. Det gir to hovedscore: EVA-A, som måler nøyaktighet i oppgaveløsning, og EVA-X, som vurderer kvaliteten på brukeropplevelsen. Sammen gir disse en mer komplett forståelse av hvordan en AI-agent faktisk presterer i praksis.
Rammeverket skiller seg ut ved å kombinere evaluering av både oppgaveløsning og samtalekvalitet i én modell. Tidligere metoder har ofte vurdert disse aspektene separat, noe som har gjort det vanskelig å få et helhetlig bilde av ytelsen.
EVA inkluderer også et datasett med 50 scenarier fra luftfartsbransjen, utviklet for å teste ulike typer samtaleinteraksjoner og komplekse brukerbehov.
Kilde: Hugging Face
Les også: Meta AI introduserer Hyperagenter for selvforbedring

