RLHF

Lite leksikon om AI

Finjustering der menneskelige vurderinger lærer modellen ønsket oppførsel.

Reinforcement Learning from Human Feedback bruker menneskelige rangeringer eller regler til å lære modellen høflighet, sikkerhet og stil. I økende grad brukes også RLAIF, der en «lærer‑modell» lager tilbakemeldinger. Kvaliteten hviler på gode retningslinjer for annotatører og transparente prosesser.