Reinforcement Learning from Human Feedback bruker menneskelige rangeringer eller regler til å lære modellen høflighet, sikkerhet og stil. I økende grad brukes også RLAIF, der en «lærer‑modell» lager tilbakemeldinger. Kvaliteten hviler på gode retningslinjer for annotatører og transparente prosesser.
RLHF
Lite leksikon om AI
Finjustering der menneskelige vurderinger lærer modellen ønsket oppførsel.