Como alguém que gosta bastante do Zen de arrumar, fiquei muito feliz em pegar uma pá de lixo, escovar e varrer alguns feijões derramados sobre uma mesa enquanto visitava o Laboratório de Pesquisa da Toyota em Cambridge, Massachusetts, no ano passado. A tarefa foi mais desafiadora do que o normal porque tive que realizá-la usando um par de braços robóticos teleoperados com pinças de dois dedos no lugar das mãos.
Quando me sentei diante da mesa, usando um par de controladores como alças de bicicleta com botões e alavancas extras, pude sentir a sensação de agarrar itens sólidos e também sentir seu peso ao levantá-los, mas ainda demorou um pouco para me acostumar.
Depois de vários minutos arrumando, continuei meu passeio pelo laboratório e esqueci minha breve passagem como professor de robôs. Alguns dias depois, a Toyota me enviou um vídeo do robô que eu havia operado varrendo sozinho uma bagunça semelhante, usando o que havia aprendido em minhas demonstrações, combinado com mais algumas demonstrações e mais algumas horas de prática varrendo dentro de um ambiente simulado. mundo.
A maioria dos robôs – e especialmente aqueles que realizam trabalho valioso em armazéns ou fábricas – só consegue seguir rotinas pré-programadas que requerem conhecimentos técnicos para serem planeadas. Isto os torna muito precisos e confiáveis, mas totalmente inadequados para realizar trabalhos que exijam adaptação, improvisação e flexibilidade – como varrer ou a maioria das outras tarefas domésticas. Fazer com que os robôs aprendam a fazer coisas por si próprios tem se mostrado um desafio devido à complexidade e variabilidade do mundo físico e dos ambientes humanos, e à dificuldade de obter dados de treinamento suficientes para ensiná-los a lidar com todas as eventualidades.
Há sinais de que isso pode estar mudando. As melhorias dramáticas que vimos nos chatbots de IA ao longo do último ano levaram muitos roboticistas a questionarem-se se saltos semelhantes poderiam ser alcançados no seu próprio campo. Os algoritmos que nos deram chatbots e geradores de imagens impressionantes também já estão ajudando os robôs a aprender com mais eficiência.
O robô varredor que treinei usa um sistema de aprendizado de máquina chamado política de difusão, semelhante aos que alimentam alguns geradores de imagens de IA, para chegar à ação certa a ser tomada em uma fração de segundo, com base nas muitas possibilidades e múltiplas fontes de dados. A tecnica foi desenvolvido pela Toyota em colaboração com pesquisadores liderados por Canção de Shuranprofessor da Universidade de Columbia que agora lidera um laboratório de robôs em Stanford.
A Toyota está tentando combinar essa abordagem com o tipo de modelo de linguagem que sustenta o ChatGPT e seus rivais. O objetivo é possibilitar que os robôs aprendam a realizar tarefas assistindo a vídeos, potencialmente transformando recursos como o YouTube em poderosos recursos de treinamento de robôs. Presumivelmente, serão mostrados clipes de pessoas fazendo coisas sensatas, e não as acrobacias duvidosas ou perigosas frequentemente encontradas nas redes sociais.
“Se você nunca tocou em nada no mundo real, é difícil obter essa compreensão apenas assistindo a vídeos no YouTube”, diz Russ Tedrake, vice-presidente de Pesquisa em Robótica do Toyota Research Institute e professor do MIT. A esperança, diz Tedrake, é que alguma compreensão básica do mundo físico, combinada com dados gerados em simulação, permita que os robôs aprendam ações físicas assistindo a clipes do YouTube. A abordagem de difusão “é capaz de absorver os dados de uma forma muito mais escalonável”, diz ele.