A Nvidia anunciou hoje que está lançando uma família de modelos básicos de IA chamada Cosmos, que pode ser usada para treinar humanóides, robôs industriais e carros autônomos. Enquanto os modelos de linguagem aprendem como gerar texto treinando em grandes quantidades de livros, artigos e postagens em mídias sociais, o Cosmos é projetado para gerar imagens e modelos 3D do mundo físico.
Durante uma apresentação na conferência anual CES em Las Vegas, o CEO da Nvidia, Jensen Huang, mostrou exemplos do Cosmos sendo usado para simular atividades dentro de armazéns. O Cosmos foi treinado em 20 milhões de horas de imagens reais de “humanos andando, mãos movendo, manipulando coisas”, disse Jensen. “Não se trata de gerar conteúdo criativo, mas de ensinar a IA a compreender o mundo físico.”
Pesquisadores e startups esperam que esses tipos de modelos fundamentais possam dar aos robôs usados em fábricas e residências capacidades mais sofisticadas. O Cosmos pode, por exemplo, gerar vídeos realistas de caixas caindo das prateleiras de um armazém, que podem ser usadas para treinar um robô para reconhecer acidentes. Os usuários também podem ajustar os modelos usando seus próprios dados.
Várias empresas já estão usando o Cosmos, diz a Nvidia, incluindo startups de robôs humanóides Agility e Figure AI, bem como empresas de automóveis autônomos como Uber, Waabi e Wayve.
A Nvidia também anunciou um software projetado para ajudar diferentes tipos de robôs a aprender a realizar novas tarefas com mais eficiência. O novo recurso faz parte da plataforma existente de simulação de robôs Isaac da Nvidia, que permitirá aos construtores de robôs pegar um pequeno número de exemplos de uma tarefa desejada, como agarrar um objeto específico, e gerar grandes quantidades de dados de treinamento sintéticos.
A Nvidia espera que Cosmos e Isaac atraiam empresas que desejam construir e usar robôs humanóides. Jensen foi acompanhado no palco da CES por imagens em tamanho real de 14 robôs humanóides diferentes desenvolvidos por empresas como Tesla, Boston Dynamics, Agility e Figure.