RLHF - AI-leksikon

← Til leksikon

Reinforcement Learning from Human Feedback bruker menneskelige rangeringer eller regler til å lære modellen høflighet, sikkerhet og stil. I økende grad brukes også RLAIF, der en «lærer‑modell» lager tilbakemeldinger. Kvaliteten hviler på gode retningslinjer for annotatører og transparente prosesser.

Kunstig intelligens – Siste nytt

Relatert AI Nyheter