Målemetoder (benchmarks)

Lite leksikon om AI

Standardiserte tester som sammenligner modellers ytelse og robusthet.

Benchmarker gir en pekepinn på modellkvalitet, men må suppleres med domenespesifikke tester. I produksjon setter man egne mål som nøyaktighet, kilde‑dekning (ved RAG), sikkerhet mot uønsket innhold og svartid. Å dele metoder og resultater i åpne rapporter bygger tillit hos ledelse og brukere.