Home Economia Os experimentos de xadrez do Google revelam como aumentar o poder da IA

Os experimentos de xadrez do Google revelam como aumentar o poder da IA

Por Humberto Marchezini


Seu grupo decidiu descobrir. Eles construíram a nova e diversificada versão do AlphaZero, que inclui vários sistemas de IA que treinam de forma independente e em diversas situações. O algoritmo que governa o sistema geral atua como uma espécie de matchmaker virtual, disse Zahavy: projetado para identificar qual agente tem a melhor chance de sucesso na hora de fazer uma jogada. Ele e os seus colegas também codificaram um “bónus de diversidade” – uma recompensa para o sistema sempre que este retirasse estratégias de uma grande variedade de opções.

Quando o novo sistema foi liberado para jogar seus próprios jogos, a equipe observou muita variedade. O diversificado jogador de IA experimentou aberturas novas e eficazes e decisões novas – mas sólidas – sobre estratégias específicas, como quando e onde rocar. Na maioria das partidas, derrotou o AlphaZero original. A equipe também descobriu que a versão diversificada poderia resolver o dobro de quebra-cabeças desafiadores que o original e poderia resolver mais da metade do catálogo total de quebra-cabeças de Penrose.

“A ideia é que, em vez de encontrar uma solução, ou uma única política, que derrote qualquer jogador, aqui (ela usa) a ideia de diversidade criativa”, disse Cully.

Com acesso a mais e diferentes jogos, disse Zahavy, o diversificado AlphaZero tinha mais opções para situações complicadas quando elas surgiam. “Se você pode controlar o tipo de jogos que ele vê, você basicamente controla como ele irá generalizar”, disse ele. Essas estranhas recompensas intrínsecas (e seus movimentos associados) podem se tornar pontos fortes para diversos comportamentos. Então o sistema poderia aprender a avaliar e valorizar as abordagens díspares e ver quando elas tiveram mais sucesso. “Descobrimos que esse grupo de agentes pode realmente chegar a um acordo sobre essas posições.”

E, o que é crucial, as implicações vão além do xadrez.

Criatividade na vida real

Cully disse que uma abordagem diversificada pode ajudar qualquer sistema de IA, não apenas aqueles baseados em aprendizagem por reforço. Há muito tempo ele usa a diversidade para treinar sistemas físicos, incluindo um robô de seis pernas que lhe foi permitido explorar vários tipos de movimento, antes de o “ferir” intencionalmente, permitindo-lhe continuar a mover-se utilizando algumas das técnicas que tinha desenvolvido anteriormente. “Estávamos apenas tentando encontrar soluções diferentes de todas as soluções anteriores que encontramos até agora.” Recentemente, ele também tem colaborado com pesquisadores para usar a diversidade para identificar novos candidatos promissores a medicamentos e desenvolver estratégias eficazes de negociação de ações.

“O objetivo é gerar uma grande coleção de potencialmente milhares de soluções diferentes, onde cada solução é muito diferente da outra”, disse Cully. Assim – tal como o jogador de xadrez diversificado aprendeu a fazer – para cada tipo de problema, o sistema global poderia escolher a melhor solução possível. O sistema de IA de Zahavy, disse ele, mostra claramente como “a busca por diversas estratégias ajuda a pensar fora da caixa e a encontrar soluções”.

Zahavy suspeita que, para que os sistemas de IA pensem de forma criativa, os investigadores simplesmente têm de levá-los a considerar mais opções. Essa hipótese sugere uma ligação curiosa entre humanos e máquinas: talvez a inteligência seja apenas uma questão de poder computacional. Para um sistema de IA, talvez a criatividade se reduza à capacidade de considerar e selecionar entre um grande buffet de opções. À medida que o sistema ganha recompensas pela selecção de uma variedade de estratégias óptimas, este tipo de resolução criativa de problemas é reforçado e fortalecido. Em última análise, em teoria, poderia emular qualquer tipo de estratégia de resolução de problemas reconhecida como criativa nos seres humanos. A criatividade se tornaria um problema computacional.

Liemhetcharat observou que é improvável que um sistema diversificado de IA resolva completamente o problema mais amplo de generalização no aprendizado de máquina. Mas é um passo na direção certa. “Isso está atenuando uma das deficiências”, disse ela.

De forma mais prática, os resultados de Zahavy ressoam com os esforços recentes que mostram como a cooperação pode levar a um melhor desempenho em tarefas difíceis entre os seres humanos. A maioria dos sucessos da lista Billboard 100 foram escritos por equipes de compositores, por exemplo, e não por indivíduos. E ainda há espaço para melhorias. A abordagem diversificada é atualmente computacionalmente dispendiosa, uma vez que deve considerar muito mais possibilidades do que um sistema típico. Zahavy também não está convencido de que mesmo o AlphaZero diversificado capture todo o espectro de possibilidades.

“Ainda (acho) que há espaço para encontrar soluções diferentes”, disse ele. “Não está claro para mim que, dados todos os dados do mundo, haja (apenas) uma resposta para cada pergunta.”


História original reimpresso com permissão de Revista Quanta, uma publicação editorialmente independente do Fundação Simons cuja missão é melhorar a compreensão pública da ciência, cobrindo desenvolvimentos e tendências de pesquisa em matemática e ciências físicas e biológicas.



Source link

Related Articles

Deixe um comentário