Google DeepMind utviklar LLM som kan forbetre spelteori-algoritmar

Google DeepMind har utvikla ei ny teknologi kalla AlphaEvolve, som let ein stor språkmodell (LLM) automatisk forbetre spelteori-algoritmar. Denne metoden har vist seg å overgå ekspertar i yting.

KI-forklart

Kva er AlphaEvolve og korleis forbetrar det spelteori-algoritmar?

AlphaEvolve er ein teknologi frå Google DeepMind som brukar store språkmodellar til å automatisere og forbetre utviklinga av spelteori-algoritmar. Den muterer kjeldekoden til algoritmar i Multi-Agent Reinforcement Learning for å finne meir effektive løysingar enn handdesigna metodar. Eksperiment har vist at AlphaEvolve kan oppdage nye mekanismar og lage konkurransedyktige algoritmar som VAD-CFR og SHOR-PSRO.

  • Kort forklart: AlphaEvolve bruker evolusjonær kodeendring med LLM for å automatisere og forbetre spelteori-algoritmar.
  • Kvifor det er relevant: Det kan gjere utvikling av avanserte KI-algoritmar raskare og meir effektiv, særleg innan spel og simulering.
  • Det viktigaste å vite: AlphaEvolve har vist betre yting enn ekspertdesigna algoritmar ved å oppdage nye oppdateringsreglar og mekanismar i spelteori.

AlphaEvolve automatiserer algoritmedesign i spelteori

AlphaEvolve er ein evolusjonær kodeagent som brukar LLM-teknologi for å erstatte manuell iterasjon i utviklinga av algoritmar for Multi-Agent Reinforcement Learning (MARL). Tidlegare har forskarar måtta stole på intuisjon og prøving og feiling for å utvikle algoritmar som Counterfactual Regret Minimization (CFR) og Policy Space Response Oracles (PSRO). I staden for å justere hyperparametrar, muterer AlphaEvolve faktisk kjeldekoden til MARL-algoritmane, og oppdagar nye oppdateringsreglar som er meir effektive enn eksisterande metodar. I eksperimenta vart det funne algoritmar som presterte betre enn dei beste handdesigna alternativa, med bruk av OpenSpiel-rammeverket for testing.

Forskninga syner at AlphaEvolve kan oppdage ikkje-intuitive mekanismar, som til dømes ein hard oppstart ved iterasjon 500 og asymmetrisk boosting av positive regret. Den nye varianten av CFR, kalla Volatility-Adaptive Discounted CFR (VAD-CFR), tilpassar seg volatiliteten i læringsprosessen, noko som gjer han meir responsiv i dynamiske spelmiljø. AlphaEvolve har òg utvikla ein ny variant av PSRO, kalla Smoothed Hybrid Optimistic Regret PSRO (SHOR-PSRO), som forbetrar overgangen mellom utforsking og utnytting. Begge algoritmane vart testa på ei rekkje spel og viste seg å vere konkurransedyktige mot eksisterande metodar.

Betydinga for norske utviklarar og marknaden

AIny kort vurdering: AlphaEvolve gir norske utviklarar moglegheit til å automatisere designprosessen for spelteori-algoritmar. Dette kan føre til raskare innovasjon innan KI-applikasjonar i Noreg, særleg innan spel og simulering. Med auka effektivitet i algoritmeutvikling kan norske selskap dra nytte av meir avanserte KI-løysingar utan å måtte investere mykje i manuell forsking og utvikling.

Kjelde: Marktechpost

Les òg: Anthropic innfører ekstra kostnader for OpenClaw-bruk