Auto Prompt Ensemble forbedrer LLM Judge

Forskere presenterer Auto Prompt Ensemble (APE) som skal øke påliteligheten til LLM-dommere.

Artikkelen av Jiajie Li, Huayi Zhang, Peng Lin, Jinjun Xiong og Wei Xu beskriver APE, en ramme som selektivt supplerer store språkmodeller med ekstra evalueringsdimensjoner. Ifølge forfatterne lærer APE nye evalueringsdimensjoner fra feiltilfeller og benytter en confidence basert ensemblemekanisme kalt Collective Confidence for å avgjøre når tilleggsvurderinger skal tas i bruk. Arbeidet er rettet mot forbedring av dommernes samsvar og pålitelighet i vurderinger av generert tekst, et tema sentralt innen kunstlig intelligens (KI).

I eksperimenter på standardiserte benchmark viser forfatterne at APE øker enighetsraten til GPT4o på Reward Bench fra 87.2% til 90.5% i zero shot. Forfatterne hevder også at APE gir en prinsipiell måte for LLM Judge å utnytte testtidberegning og å redusere evaluasjonsgapet mellom menneskelige og maskinelle dommere. Studien ble innsendt til arXiv 8. oktober 2025 under id arXiv:2510.06538.

Relevans for Norge: Metoden kan være av interesse for norske forskningsmiljøer og utviklere som jobber med evaluering av språkmodeller, og omtales her som en sak i AI-nyheter.

Kilde: https://arxiv.org/abs/2510.06538 | Sammendraget er KI-generert med OpenAI API av Ainy.no