Apesar do impressionante progresso da IA nos últimos anos, os robôs continuam teimosamente burros e limitados. Aqueles encontrados em fábricas e armazéns normalmente passam por rotinas precisamente coreografadas, sem muita capacidade de perceber o ambiente ou de se adaptar rapidamente. Os poucos robôs industriais que conseguem ver e agarrar objetos só conseguem fazer um número limitado de coisas com destreza mínima devido à falta de inteligência física geral.
Robôs mais capazes em geral poderiam assumir uma gama muito mais ampla de tarefas industriais, talvez após demonstrações mínimas. Os robôs também precisarão de habilidades mais gerais para lidar com a enorme variabilidade e confusão dos lares humanos.
O entusiasmo geral sobre o progresso da IA já se traduziu em otimismo sobre novos avanços importantes na robótica. A empresa automobilística de Elon Musk, Tesla, está desenvolvendo um robô humanóide chamado Optimus, e Musk sugerido recentemente que estaria amplamente disponível por US$ 20.000 a US$ 25.000 e seria capaz de realizar a maioria das tarefas até 2040.
Esforços anteriores para ensinar robôs a realizar tarefas desafiadoras concentraram-se em treinar uma única máquina em uma única tarefa porque o aprendizado parecia intransferível. Alguns trabalhos acadêmicos recentes mostraram que com escala e ajuste fino suficientes, o aprendizado pode ser transferido entre diferentes tarefas e robôs. Um projeto do Google de 2023 chamado Abrir X-Embodiment envolveu o compartilhamento de aprendizagem robótica entre 22 robôs diferentes em 21 laboratórios de pesquisa diferentes.
Um desafio importante da estratégia que a Inteligência Física está perseguindo é que não há a mesma escala de dados de robôs disponíveis para treinamento como existe para grandes modelos de linguagem na forma de texto. Portanto, a empresa precisa gerar seus próprios dados e desenvolver técnicas para melhorar o aprendizado a partir de um conjunto de dados mais limitado. Para desenvolver o π0, a empresa combinou os chamados modelos de linguagem de visão, que são treinados tanto em imagens quanto em texto, com modelagem de difusão, uma técnica emprestada da geração de imagens de IA, para permitir um tipo de aprendizagem mais geral.
Para que os robôs sejam capazes de realizar qualquer tarefa robótica que uma pessoa lhes peça, esse aprendizado precisará ser ampliado significativamente. “Ainda há um longo caminho a percorrer, mas temos algo que você pode considerar como um andaime que ilustra o que está por vir”, diz Levine.