Peter Chen, CEO da empresa de software para robôs Covariant, está sentado em frente a uma interface de chatbot semelhante àquela usada para se comunicar com o ChatGPT. “Mostre-me a bolsa que está na sua frente”, ele digita. Em resposta, um vídeo aparece, revelando um braço robótico sobre uma lixeira contendo vários itens – um par de meias, um tubo de batatas fritas e uma maçã entre eles.
O chatbot pode discutir os itens que vê, mas também manipulá-los. Quando a WIRED sugere que Chen peça para ele pegar um pedaço de fruta, o braço se abaixa, segura suavemente a maçã e depois a move para outra lixeira próxima.
Este chatbot prático é um passo para dar aos robôs o tipo de recursos gerais e flexíveis exibidos por programas como o ChatGPT. Há esperança de que a IA possa finalmente resolver a antiga dificuldade de programar robôs e fazer com que eles façam mais do que um conjunto restrito de tarefas.
“Não é nada controverso neste momento dizer que os modelos básicos são o futuro da robótica”, diz Chen, usando um termo para modelos de aprendizado de máquina de uso geral e em larga escala desenvolvidos para um domínio específico. O prático chatbot que ele me mostrou é alimentado por um modelo desenvolvido pela Covariant chamado RFM-1, para Robot Foundation Model. Como aqueles por trás do ChatGPT, do Gemini do Google e de outros chatbots, ele foi treinado com grandes quantidades de texto, mas também foi alimentado com vídeo e controle de hardware e dados de movimento de dezenas de milhões de exemplos de movimentos de robôs provenientes do trabalho físico. mundo.
Incluir esses dados extras produz um modelo não apenas fluente na linguagem, mas também na ação e que é capaz de conectar os dois. O RFM-1 pode não apenas conversar e controlar um braço robótico, mas também gerar vídeos mostrando robôs realizando diferentes tarefas. Quando solicitado, o RFM-1 mostrará como um robô deve pegar um objeto de uma lixeira desordenada. “Ele pode abranger todas essas modalidades diferentes que são importantes para a robótica e também pode gerar qualquer uma delas”, diz Chen. “É um pouco alucinante.”
O modelo também mostrou que pode aprender a controlar hardware semelhante que não está em seus dados de treinamento. Com formação adicional, isto pode até significar que o mesmo modelo geral poderia operar um robô humanóide, diz Pieter Abbeel, cofundador e cientista-chefe da Covariant, que foi pioneira na aprendizagem de robôs. Em 2010 liderou um projeto que treinou um robô dobrar toalhas— embora lentamente — e ele também trabalhou na OpenAI antes de parar de fazer pesquisas com robôs.
A Covariant, fundada em 2017, vende atualmente software que usa aprendizado de máquina para permitir que braços robóticos retirem itens de caixas em armazéns, mas geralmente estão limitados à tarefa para a qual foram treinados. Abeel diz que modelos como o RFM-1 poderiam permitir que os robôs direcionassem suas garras para novas tarefas com muito mais fluência. Ele compara a estratégia da Covariant à forma como a Tesla usa dados de carros que vendeu para treinar seus algoritmos de direção autônoma. “É mais ou menos a mesma coisa aqui que estamos representando”, diz ele.
Abeel e seus colegas da Covariant estão longe de ser os únicos roboticistas que esperam que as capacidades dos grandes modelos de linguagem por trás do ChatGPT e de programas similares possam trazer uma revolução na robótica. Projetos como o RFM-1 mostraram resultados iniciais promissores. Mas a quantidade de dados que pode ser necessária para treinar modelos que produzem robôs com capacidades muito mais gerais – e como os recolher – é uma questão em aberto.