Google DeepMind desenvolve LLM que pode aprimorar algoritmos de teoria dos jogos

Google DeepMind desenvolveu uma nova tecnologia chamada AlphaEvolve, que permite que um grande modelo de linguagem (LLM) melhore automaticamente algoritmos de teoria dos jogos. Esse método demonstrou superar especialistas em desempenho.

IA explicada

Como o AlphaEvolve aprimora algoritmos de teoria dos jogos?

O AlphaEvolve é um modelo de linguagem grande (LLM) criado pela Google DeepMind que automatiza a melhoria de algoritmos para Aprendizado por Reforço Multiagente (MARL). Ele modifica diretamente o código-fonte dos algoritmos, superando métodos manuais tradicionais. Novas variantes criadas, como VAD-CFR e SHOR-PSRO, mostraram desempenho superior em testes com jogos.

  • Resumo: AlphaEvolve usa LLM para evoluir algoritmos de teoria dos jogos, substituindo o ajuste manual por modificações automáticas no código.
  • Por que isso importa: A tecnologia permite criar algoritmos mais eficientes e complexos, acelerando o desenvolvimento em áreas como jogos e simulações.
  • Ponto principal: AlphaEvolve descobriu algoritmos que superam especialistas, mostrando que LLMs podem inovar diretamente no design de algoritmos de MARL.

AlphaEvolve automatiza o design de algoritmos em teoria dos jogos

AlphaEvolve é um agente de código evolutivo que utiliza tecnologia LLM para substituir a iteração manual no desenvolvimento de algoritmos para Aprendizado por Reforço Multiagente (MARL). Anteriormente, pesquisadores precisavam confiar na intuição e em tentativa e erro para desenvolver algoritmos como Counterfactual Regret Minimization (CFR) e Policy Space Response Oracles (PSRO). Em vez de ajustar hiperparâmetros, AlphaEvolve realmente modifica o código-fonte dos algoritmos MARL, descobrindo novas regras de atualização mais eficientes do que os métodos existentes. Nos experimentos, foram encontrados algoritmos que superaram as melhores opções feitas manualmente, utilizando o framework OpenSpiel para testes.

A pesquisa mostra que AlphaEvolve pode identificar mecanismos não intuitivos, como um início rigoroso na iteração 500 e o reforço assimétrico do arrependimento positivo. A nova variante do CFR, chamada Volatility-Adaptive Discounted CFR (VAD-CFR), adapta-se à volatilidade do processo de aprendizado, tornando-se mais responsiva em ambientes de jogos dinâmicos. AlphaEvolve também desenvolveu uma nova variante do PSRO, chamada Smoothed Hybrid Optimistic Regret PSRO (SHOR-PSRO), que melhora a transição entre exploração e aproveitamento. Ambos os algoritmos foram testados em diversos jogos e mostraram-se competitivos em relação aos métodos existentes.

Relevância para o mercado brasileiro de tecnologia

Análise AIny: A chegada do AlphaEvolve representa uma oportunidade para desenvolvedores brasileiros automatizarem o processo de criação de algoritmos em teoria dos jogos, acelerando a inovação em aplicações de IA no Brasil, especialmente em jogos e simulações. Com maior eficiência no desenvolvimento de algoritmos, empresas brasileiras podem adotar soluções de IA mais avançadas sem a necessidade de grandes investimentos em pesquisa manual.

Fonte: Marktechpost

Leia também: Hackers compartilham código vazado do Claude com malware