Ny metode gir forbedret agentisk søk i LLM-er

Forskere beskriver «Behavior Priming» som gir betydelige forbedringer i agentisk søk ved å lære fremgangsmåter for bedre resonnering.

Studien presentert på arXiv identifiserer fire fordelaktige resonneringsatferder i agentisk søk: Information Verification, Authority Evaluation, Adaptive Search og Error Recovery. Forfatterne foreslår Behavior Priming, som syntetiserer agentiske søketranskripsjoner utstyrt med disse atferdene og integrerer dem i modellen gjennom supervised fine-tuning (SFT), etterfulgt av standard forsterkningslæring (RL). Eksperimenter på benchmarkene GAIA, WebWalker og HLE viste over 35% forbedring i Llama3.2-3B og Qwen3-1.7B sammenlignet med modeller som ble trent direkte med RL. Et sentralt funn er at det er de ønskede resonneringsatferdene i SFT-dataene — ikke nødvendigvis korrekte endelige svar — som er avgjørende for sterk endelig ytelse etter RL; fine-tuning på traiektorier med gode atferder men feil svar ga bedre sluttresultater enn fine-tuning på korrekte svar. Analysen peker på at disse atferdene gir mer effektiv utforskning (høyere pass@k og entropi) og bedre test-tids skalering (lengre traiektorier). Koden vil bli gjort åpen kilde.

Saken er relevant i Norge fordi norske forskningsmiljøer og leverandører anvender kunstlig intelligens (KI) i søk og informasjonsinnhenting; dette er en konkret utvikling innen AI-nyheter om forbedret agentisk søk.

Kilde: https://arxiv.org/abs/2510.06534 | Sammendraget er KI-generert med OpenAI API av Ainy.no