Google DeepMind har utviklet en ny teknologi kalt AlphaEvolve, som lar en stor språkmodell (LLM) automatisk forbedre spillteori-algoritmer. Denne metoden har vist seg å overgå eksperter i ytelse.

AI-forklart

Hvordan forbedrer AlphaEvolve spillteori-algoritmer?

AlphaEvolve er en stor språkmodell som automatisk forbedrer algoritmer for Multi-Agent Reinforcement Learning ved å mutere kildekoden. Den har utviklet nye varianter av CFR og PSRO som presterer bedre enn tidligere hånddesignede metoder.

Kort forklart: AlphaEvolve bruker evolusjonær kodeendring for å optimalisere spillteori-algoritmer uten manuell justering.
Hvorfor det er relevant: Metoden kan øke effektiviteten i utviklingen av AI-algoritmer for spill og simulering.
Det viktigste å vite: AlphaEvolve har skapt algoritmer som tilpasser seg dynamiske miljøer og forbedrer balansen mellom utforskning og utnyttelse.

Illustrasjon av Google DeepMind utvikler LLM som kan forbedre spillteori-algoritmer — KI-generert illustrasjon

⚡ Anbefalt verktøy

Automatiser AI-arbeidsflyter uten koding → Prøv gratis

AlphaEvolve automatiserer algoritmedesign i spillteori

AlphaEvolve er en evolusjonær kodeagent som bruker LLM-teknologi for å erstatte manuell iterasjon i utviklingen av algoritmer for Multi-Agent Reinforcement Learning (MARL). Tidligere har forskere måttet stole på intuisjon og prøving og feiling for å utvikle algoritmer som Counterfactual Regret Minimization (CFR) og Policy Space Response Oracles (PSRO). I stedet for å justere hyperparametere, muterer AlphaEvolve faktisk kildekoden til MARL-algoritmer, og oppdager nye oppdateringsregler som er mer effektive enn eksisterende metoder. I eksperimentene ble det funnet algoritmer som presterte bedre enn de beste hånddesignede alternativene, med bruk av OpenSpiel-rammeverket for testing.

Forskningen viser at AlphaEvolve kan oppdage ikke-intuitive mekanismer, som for eksempel en hard oppstart ved iterasjon 500 og asymmetrisk boosting av positive regret. Den nye varianten av CFR, kalt Volatility-Adaptive Discounted CFR (VAD-CFR), tilpasser seg volatiliteten i læringsprosessen, noe som gjør den mer responsiv i dynamiske spillmiljøer. AlphaEvolve har også utviklet en ny variant av PSRO, kalt Smoothed Hybrid Optimistic Regret PSRO (SHOR-PSRO), som forbedrer overgangen mellom utforskning og utnyttelse. Begge algoritmene ble testet på en rekke spill og viste seg å være konkurransedyktige mot eksisterende metoder.

Vår vurdering

AIny kort vurdering: AlphaEvolve gir norske utviklere mulighet til å automatisere designprosessen for spillteori-algoritmer. Dette kan føre til raskere innovasjon innen AI-applikasjoner i Norge, spesielt innen spill og simulering. Med økt effektivitet i algoritmeutvikling, kan norske selskaper dra nytte av mer avanserte AI-løsninger uten å måtte investere betydelig i manuell forskning og utvikling.

Kilde: Marktechpost

Les også: Hackere deler Claude-kodelekkasje med skadelig programvare