Home Economia O modelo de IA de código aberto mais capaz até agora pode turbinar agentes de IA

O modelo de IA de código aberto mais capaz até agora pode turbinar agentes de IA

Por Humberto Marchezini


O modelo de IA de código aberto mais capaz com habilidades visuais até agora pode fazer com que mais desenvolvedores, pesquisadores e startups desenvolvam agentes de IA que podem executar tarefas úteis em seus computadores para você.

Lançado hoje pelo Instituto Allen para IA (Ai2), o Modelo de Linguagem Aberta Multimodalou Molmo, pode interpretar imagens, bem como conversar por meio de uma interface de bate-papo. Isso significa que ele pode dar sentido a uma tela de computador, potencialmente ajudando um agente de IA a executar tarefas como navegar na web, navegar por diretórios de arquivos e redigir documentos.

“Com este lançamento, muito mais pessoas podem implementar um modelo multimodal”, diz Ali FarhadiCEO da Ai2, uma organização de pesquisa sediada em Seattle, Washington, e cientista da computação na Universidade de Washington. “Deve ser um facilitador para aplicativos de próxima geração.”

Os chamados agentes de IA estão sendo amplamente divulgados como a próxima grande novidade em IA, com OpenAI, Google e outros correndo para desenvolvê-los. Agentes se tornaram uma palavra da moda ultimamente, mas a grande visão é que a IA vá muito além do bate-papo para executar ações complexas e sofisticadas de forma confiável em computadores quando receber um comando. Essa capacidade ainda não se materializou em nenhuma escala.

Alguns modelos poderosos de IA já têm habilidades visuais, incluindo GPT-4 da OpenAI, Claude da Anthropic e Gemini da Google DeepMind. Esses modelos podem ser usados ​​para alimentar alguns agentes experimentais de IA, mas eles ficam ocultos da visualização e acessíveis apenas por meio de uma interface de programação de aplicativo paga, ou API.

A Meta lançou uma família de modelos de IA chamada Llama sob uma licença que limita seu uso comercial, mas ainda precisa fornecer aos desenvolvedores uma versão multimodal. A Meta deve anunciar vários produtos novos, talvez incluindo novos modelos de IA Llama, em seu evento Connect hoje.

“Ter um modelo multimodal de código aberto significa que qualquer startup ou pesquisador que tenha uma ideia pode tentar fazê-la”, diz Imprensa Ofirum pós-doutorado na Universidade de Princeton que trabalha com agentes de IA.

Press diz que o fato de o Molmo ser de código aberto significa que os desenvolvedores poderão ajustar seus agentes com mais facilidade para tarefas específicas, como trabalhar com planilhas, fornecendo dados de treinamento adicionais. Modelos como o GPT-4 só podem ser ajustados em um grau limitado por meio de suas APIs, enquanto um modelo totalmente aberto pode ser modificado extensivamente. “Quando você tem um modelo de código aberto como este, então você tem muito mais opções”, diz Press.

A Ai2 está lançando vários tamanhos do Molmo hoje, incluindo um modelo de 70 bilhões de parâmetros e um de 1 bilhão de parâmetros que é pequeno o suficiente para rodar em um dispositivo móvel. A contagem de parâmetros de um modelo se refere ao número de unidades que ele contém para armazenar e manipular dados e corresponde aproximadamente às suas capacidades.

A Ai2 diz que o Molmo é tão capaz quanto modelos comerciais consideravelmente maiores, apesar de seu tamanho relativamente pequeno, porque foi cuidadosamente treinado em dados de alta qualidade. O novo modelo também é totalmente de código aberto, pois, diferentemente do Llama da Meta, não há restrições quanto ao seu uso. A Ai2 também está divulgando os dados de treinamento usados ​​para criar o modelo, fornecendo aos pesquisadores mais detalhes sobre seu funcionamento.

Liberar modelos poderosos não é isento de riscos. Tais modelos podem ser mais facilmente adaptados para fins nefastos; podemos um dia, por exemplo, ver o surgimento de agentes de IA maliciosos projetados para automatizar o hacking de sistemas de computador.

Farhadi, da Ai2, argumenta que a eficiência e a portabilidade do Molmo permitirão que os desenvolvedores criem agentes de software mais poderosos que rodem nativamente em smartphones e outros dispositivos portáteis. “O modelo de parâmetro de um bilhão agora está tendo um desempenho no nível ou na liga de modelos que são pelo menos 10 vezes maiores”, ele diz.

No entanto, construir agentes de IA úteis pode depender de mais do que apenas modelos multimodais mais eficientes. Um desafio fundamental é fazer com que os modelos funcionem de forma mais confiável. Isso pode muito bem exigir mais avanços nas habilidades de raciocínio da IA ​​— algo que a OpenAI buscou abordar com seu mais recente modelo o1, que demonstra habilidades de raciocínio passo a passo. O próximo passo pode muito bem ser dar aos modelos multimodais tais habilidades de raciocínio.

Por enquanto, o lançamento do Molmo significa que os agentes de IA estão mais próximos do que nunca — e em breve poderão ser úteis até mesmo fora dos gigantes que governam o mundo da IA.



Source link

Related Articles

Deixe um comentário