AI-nyheter: Forskningsartikkel presenterer ToolBrain, et rammeverk for å trene LLM-baserte agenter til bedre verktøybruk.
Verktøyet støtter ulike treningsstrategier, blant annet RL-algoritmene GRPO og DPO samt overvåket læring, og tillater egendefinerte reward-callables på agentens kjøre-traces eller LLM-som-dommer for automatisert belønning. Rammeverket tilbyr kunnskapsdestillasjon, automatisk oppgavegenerering fra verktøybeskrivelser, verktøysøk, effektive finjusteringspipelines med QLoRA via Unsloth og kvantisert inferens med bitsandbytes. Forfatterne demonstrerer ToolBrain ved å trene en CodeAct-agent for autonome e-postsøk, med målbare forbedringer på inntil 30.0% i verktøybruk. Verktøyet er relevant for norske forskere og utviklere som arbeider med kunstlig intelligens (KI) og LLM‑agenter.
Kilde: https://arxiv.org/abs/2510.00023 | Sammendraget er KI-generert med OpenAI API av Ainy.no
