Kwaipilot-teamet i Kuaishou presenterer SRPO, en totrinns RL-ramme som kutter ettertreningstrinn med 90 prosent og nådde DeepSeek‑R1‑nivå i både matematikk og kode.
Kuaishou beskriver Two‑Staged history‑Resampling Policy Optimization (SRPO) i en teknisk rapport og har åpenkodet SRPO‑Qwen‑32B. Ifølge rapporten reduserer SRPO post‑treningstrinn for store språkmodeller med 90 prosent samtidig som den matcher eller overgår DeepSeek‑R1‑Zero‑32B på AIME24 (50) og LiveCodeBench (41.6). Arbeidet bruker samme base som DeepSeek (Qwen2.5‑32B) og en ren RL‑tilnærming. Teamet identifiserte begrensninger i vanlig GRPO: kryssdomene‑konflikter mellom matematikk og kode, lavt gradientbidrag når mange rollouts ga like belønninger, og tidlig prestasjonsmetning ved ensformig data. SRPOs totrinnsoppsett (matematikk først, så kode) samt history resampling — der data rekonstrueres og forenklede prøver filtreres bort etter epoker — skal løse disse problemene og gi mer effektiv RL‑ettertrening innen kunstlig intelligens (KI).
Relevans for Norge: Norske forskningsmiljøer og selskaper som arbeider med store språkmodeller kan følge SRPO‑rapporten for innsikt i mer ressurs‑effektiv RL‑ettertrening; saken vil være aktuell i norske AI nyheter.
Kilde: https://syncedreview.com/2025/04/23/can-grpo-be-10x-efficient-kwai-ais-srpo-suggests-yes-with-srpo | Sammendraget er KI-generert med OpenAI API av Ainy.no