Esta semana uma startup chamada IA de cognição causou um certo rebuliço ao liberar uma demonstração mostrando um programa de inteligência artificial chamado Devin realizando um trabalho geralmente feito por engenheiros de software bem pagos. Chatbots como ChatGPT e Gemini podem gerar código, mas Devin foi além, planejando como resolver um problema, escrevendo o código e depois testando-o e implementando-o.
Os criadores de Devin o classificam como um “desenvolvedor de software de IA”. Quando solicitado a testar o desempenho do modelo de linguagem de código aberto Llama 2 da Meta quando acessado por diferentes empresas que o hospedam, Devin gerou um plano passo a passo para o projeto, gerou o código necessário para acessar as APIs e executar testes de benchmarking e criou um site resumindo os resultados.
É sempre difícil avaliar demonstrações encenadas, mas Cognition mostrou Devin lidando com uma ampla gama de tarefas impressionantes. Isto impressionou investidores e engenheiros em X, recebendo bastante endossose até inspirado um pouco memes-incluindo algumas previsões de que Devin em breve será responsável para uma onda de demissões na indústria de tecnologia.
Devin é apenas o exemplo mais recente e mais refinado de uma tendência que venho acompanhando há algum tempo: o surgimento de agentes de IA que, em vez de apenas fornecer respostas ou conselhos sobre um problema apresentado por um ser humano, podem agir para resolvê-lo. Alguns meses atrás eu test drive Auto-GPT, um programa de código aberto que tenta realizar tarefas úteis realizando ações no computador de uma pessoa e na web. Recentemente testei outro programa chamado vimGPT para ver como as habilidades visuais dos novos modelos de IA podem ajudar esses agentes a navegar na web com mais eficiência.
Fiquei impressionado com meus experimentos com esses agentes. No entanto, por enquanto, assim como os modelos de linguagem que os alimentam, eles cometem alguns erros. E quando um software está executando ações, e não apenas gerando texto, um erro pode significar falha total – e consequências potencialmente dispendiosas ou perigosas. Restringir a gama de tarefas que um agente pode realizar para, digamos, um conjunto específico de tarefas de engenharia de software parece uma maneira inteligente de reduzir a taxa de erros, mas ainda existem muitas maneiras possíveis de falhar.
Não são apenas as startups que estão construindo agentes de IA. No início desta semana escrevi sobre um agente chamado SIMA, desenvolvido pelo Google DeepMind, que joga videogames, incluindo o título verdadeiramente maluco Simulador de cabra 3. SIMA aprendeu observando jogadores humanos como realizar mais de 600 tarefas bastante complicadas, como derrubar uma árvore ou atirar em um asteróide. Mais significativamente, ele pode realizar muitas dessas ações com sucesso, mesmo em um jogo desconhecido. O Google DeepMind o chama de “generalista”.
Suspeito que o Google espera que esses agentes acabem trabalhando fora dos videogames, talvez ajudando a usar a web em nome de um usuário ou operando software para eles. Mas os videogames são uma boa área restrita para o desenvolvimento e teste de agentes, pois fornecem ambientes complexos nos quais eles podem ser testados e melhorados. “Torná-los mais precisos é algo em que estamos trabalhando ativamente”, disse-me Tim Harley, cientista pesquisador do Google DeepMind. “Temos várias ideias.”
Você pode esperar muito mais notícias sobre agentes de IA nos próximos meses. Demis Hassabis, CEO do Google DeepMind, disse-me recentemente que planeja combinar grandes modelos de linguagem com o trabalho que sua empresa realizou anteriormente, treinando programas de IA para jogar videogames para desenvolver agentes mais capazes e confiáveis. “Esta definitivamente é uma área enorme. Estamos investindo pesadamente nessa direção e imagino que outros também estejam.” Hassabis disse. “Será uma mudança radical nas capacidades desses tipos de sistemas – quando eles começarem a se tornar mais parecidos com agentes.”