Empresas como OpenAI e Midjourney constroem chatbots, geradores de imagens e outras ferramentas de inteligência artificial que operam no mundo digital.
Agora, uma start-up fundada por três ex-pesquisadores da OpenAI está usando os métodos de desenvolvimento tecnológico por trás dos chatbots para construir tecnologia de IA que possa navegar no mundo físico.
A Covariant, uma empresa de robótica com sede em Emeryville, Califórnia, está criando maneiras para os robôs coletarem, moverem e classificarem itens à medida que são transportados através de armazéns e centros de distribuição. Seu objetivo é ajudar os robôs a compreender o que está acontecendo ao seu redor e decidir o que devem fazer a seguir.
A tecnologia também dá aos robôs uma ampla compreensão da língua inglesa, permitindo que as pessoas conversem com eles como se estivessem conversando com o ChatGPT.
A tecnologia, ainda em desenvolvimento, não é perfeita. Mas é um sinal claro de que os sistemas de inteligência artificial que impulsionam os chatbots online e os geradores de imagens também alimentarão máquinas em armazéns, estradas e residências.
Tal como os chatbots e os geradores de imagens, esta tecnologia robótica aprende as suas competências através da análise de enormes quantidades de dados digitais. Isso significa que os engenheiros podem melhorar a tecnologia alimentando-a com cada vez mais dados.
A Covariant, apoiada por US$ 222 milhões em financiamento, não constrói robôs. Ela constrói o software que alimenta os robôs. A empresa pretende implementar a sua nova tecnologia com robôs de armazém, fornecendo um roteiro para que outros possam fazer o mesmo em fábricas e talvez até em estradas com carros sem condutor.
Os sistemas de IA que impulsionam chatbots e geradores de imagens são chamados de redes neurais, em homenagem à rede de neurônios no cérebro.
Ao identificar padrões em grandes quantidades de dados, estes sistemas podem aprender a reconhecer palavras, sons e imagens – ou mesmo gerá-los por si próprios. Foi assim que a OpenAI construiu o ChatGPT, dando-lhe o poder de responder perguntas instantaneamente, escrever trabalhos de conclusão de curso e gerar programas de computador. Ele aprendeu essas habilidades com textos coletados na Internet. (Vários meios de comunicação, incluindo o The New York Times, processaram a OpenAI por violação de direitos autorais.)
As empresas estão agora construindo sistemas que podem aprender com diferentes tipos de dados ao mesmo tempo. Ao analisar uma coleção de fotos e as legendas que descrevem essas fotos, por exemplo, um sistema pode compreender as relações entre as duas. Pode aprender que a palavra “banana” descreve uma fruta amarela curva.
A OpenAI empregou esse sistema para construir o Sora, seu novo gerador de vídeo. Ao analisar milhares de vídeos legendados, o sistema aprendeu a gerar vídeos quando recebia uma breve descrição de uma cena, como “um mundo de papel maravilhosamente renderizado de um recife de coral, repleto de peixes coloridos e criaturas marinhas”.
A Covariant, fundada por Pieter Abbeel, professor da Universidade da Califórnia, Berkeley, e três de seus ex-alunos, Peter Chen, Rocky Duan e Tianhao Zhang, usaram técnicas semelhantes na construção de um sistema que aciona robôs de armazém.
A empresa ajuda a operar robôs de classificação em armazéns em todo o mundo. Ela passou anos coletando dados – de câmeras e outros sensores – que mostram como esses robôs funcionam.
“Ele ingere todos os tipos de dados importantes para os robôs – que podem ajudá-los a compreender o mundo físico e interagir com ele”, disse o Dr.
Ao combinar esses dados com as enormes quantidades de texto usadas para treinar chatbots como o ChatGPT, a empresa construiu uma tecnologia de IA que dá aos seus robôs uma compreensão muito mais ampla do mundo ao seu redor.
Depois de identificar padrões nesta mistura de imagens, dados sensoriais e texto, a tecnologia dá ao robô o poder de lidar com situações inesperadas no mundo físico. O robô sabe pegar uma banana, mesmo que nunca tenha visto uma banana antes.
Ele também pode responder em inglês simples, como um chatbot. Se você lhe disser para “pegar uma banana”, ele saberá o que isso significa. Se você lhe disser para “pegar uma fruta amarela”, ele também entenderá isso.
Pode até gerar vídeos que prevêem o que provavelmente acontecerá ao tentar pegar uma banana. Esses vídeos não têm utilidade prática em um armazém, mas mostram a compreensão do robô sobre o que está ao seu redor.
“Se conseguir prever os próximos frames de um vídeo, poderá identificar a estratégia certa a seguir”, disse Abbeel.
A tecnologia, chamada RFM, para modelo fundamental da robótica, comete erros, assim como os chatbots. Embora muitas vezes entenda o que as pessoas pedem, sempre há uma chance de que isso não aconteça. Ele deixa cair objetos de vez em quando.
Gary Marcus, empresário de IA e professor emérito de psicologia e ciências neurais na Universidade de Nova York, disse que a tecnologia pode ser útil em armazéns e outras situações onde erros são aceitáveis. Mas ele disse que seria mais difícil e arriscado implantar em fábricas e outras situações potencialmente perigosas.
“Tudo se resume ao custo do erro”, disse ele. “Se você tem um robô de 150 libras que pode fazer algo prejudicial, esse custo pode ser alto.”
À medida que as empresas treinam este tipo de sistema em coleções de dados cada vez maiores e variadas, os investigadores acreditam que ele irá melhorar rapidamente.
Isso é muito diferente da forma como os robôs operavam no passado. Normalmente, os engenheiros programavam robôs para realizar o mesmo movimento preciso repetidas vezes – como pegar uma caixa de determinado tamanho ou prender um rebite em um ponto específico do para-choque traseiro de um carro. Mas os robôs não conseguiam lidar com situações inesperadas ou aleatórias.
Ao aprender com dados digitais – centenas de milhares de exemplos do que acontece no mundo físico – os robôs podem começar a lidar com o inesperado. E quando esses exemplos são combinados com a linguagem, os robôs também podem responder a sugestões de texto e voz, como faria um chatbot.
Isso significa que, assim como os chatbots e geradores de imagens, os robôs se tornarão mais ágeis.
“O que está nos dados digitais pode ser transferido para o mundo real”, disse Chen.