Forsterkningslæring (RL) trener en agent til å ta beslutninger i rekkefølge. Agenten observerer en tilstand, velger en handling og får en belønning. Metoder som Q‑learning, policy gradient og PPO brukes i robotikk, logistikk og spill. I språkmodeller brukes RLHF/RLAIF for å tilpasse svar til menneskers preferanser og sikkerhetsregler. God utforming av belønningsfunksjonen er avgjørende.
Forsterkningslæring
Lite leksikon om AI
Læring gjennom belønning og straff mens en agent samhandler med et miljø.