Os modelos recentes de IA são surpreendentemente semelhantes aos humanos em sua capacidade de gerar texto, áudio e vídeo quando solicitado. No entanto, até agora, estes algoritmos permaneceram em grande parte relegados ao mundo digital, em vez do mundo físico e tridimensional em que vivemos. Na verdade, sempre que tentamos aplicar estes modelos ao mundo real, mesmo os mais sofisticados lutam para ter um desempenho adequado. —pense, por exemplo, no desafio que tem sido desenvolver automóveis autónomos seguros e fiáveis. Embora sejam artificialmente inteligentes, esses modelos não apenas simplesmente não têm compreensão da física, mas também costumam ter alucinações, o que os leva a cometer erros inexplicáveis.
Este é o ano, porém, em que a IA finalmente dará o salto do mundo digital para o mundo real que habitamos. Expandir a IA para além das suas fronteiras digitais exige retrabalhar a forma como as máquinas pensam, fundindo a inteligência digital da IA com a capacidade mecânica da robótica. Isto é o que chamo de “inteligência física”, uma nova forma de máquina inteligente que pode compreender ambientes dinâmicos, lidar com a imprevisibilidade e tomar decisões em tempo real. Ao contrário dos modelos usados pela IA padrão, a inteligência física está enraizada na física; na compreensão dos princípios fundamentais do mundo real, como causa e efeito.
Tais recursos permitem que modelos de inteligência física interajam e se adaptem a diferentes ambientes. No meu grupo de pesquisa no MIT, estamos desenvolvendo modelos de inteligência física que chamamos de redes líquidas. Numa experiência, por exemplo, treinámos dois drones – um operado por um modelo padrão de IA e outro por uma rede líquida – para localizar objetos numa floresta durante o verão, utilizando dados capturados por pilotos humanos. Embora ambos os drones tenham tido um desempenho igualmente bom quando foram incumbidos de fazer exatamente o que foram treinados para fazer, quando foram solicitados a localizar objetos em circunstâncias diferentes – durante o inverno ou num ambiente urbano – apenas o drone de rede líquida completou a sua tarefa com sucesso. Esta experiência mostrou-nos que, ao contrário dos sistemas tradicionais de IA que param de evoluir após a fase inicial de treino, as redes líquidas continuam a aprender e a adaptar-se a partir da experiência, tal como os humanos fazem.
A inteligência física também é capaz de interpretar e executar fisicamente comandos complexos derivados de texto ou imagens, preenchendo a lacuna entre as instruções digitais e a execução no mundo real. Por exemplo, em meu laboratório, desenvolvemos um sistema fisicamente inteligente que, em menos de um minuto, pode projetar iterativamente e depois imprimir em 3D pequenos robôs com base em instruções como “robô que pode andar para frente” ou “robô que pode agarrar objetos”.
Outros laboratórios também estão fazendo avanços significativos. Por exemplo, a startup de robótica Covariant, fundada pelo pesquisador da UC-Berkeley Pieter Abbeel, está desenvolvendo chatbots – semelhantes ao ChatGTP – que podem controlar braços robóticos quando solicitado. Eles já garantiram mais de US$ 222 milhões para desenvolver e implantar robôs de classificação em armazéns em todo o mundo. Uma equipe da Universidade Carnegie Mellon também recentemente demonstrado que um robô com apenas uma câmera e atuação imprecisa pode realizar movimentos de parkour dinâmicos e complexos – incluindo saltar sobre obstáculos com o dobro de sua altura e atravessar lacunas com o dobro de seu comprimento – usando uma única rede neural treinada por meio de aprendizagem por reforço.
Se 2023 foi o ano do texto para imagem e 2024 foi do texto para vídeo, então 2025 marcará a era da inteligência física, com uma nova geração de dispositivos – não apenas robôs, mas também qualquer coisa, desde redes elétricas até casas inteligentes. —que podem interpretar o que lhes dizemos e executar tarefas no mundo real.