Home Economia Por dentro da criação do modelo de IA de código aberto mais poderoso do mundo

Por dentro da criação do modelo de IA de código aberto mais poderoso do mundo

Por Humberto Marchezini


Na última segunda-feira, cerca de uma dúzia de engenheiros e executivos de empresas de ciência de dados e IA Blocos de dados reuniram-se em salas de conferência conectadas via Zoom para saber se conseguiram construir um modelo de linguagem de inteligência artificial de ponta. A equipe gastou meses e cerca de US$ 10 milhões treinando DBRX, um grande modelo de linguagem semelhante em design ao que está por trás do ChatGPT da OpenAI. Mas eles não saberiam o quão poderosa era sua criação até que os resultados dos testes finais de suas habilidades chegassem.

“Superamos tudo”, disse Jonathan Frankle, arquiteto-chefe de redes neurais da Databricks e líder da equipe que construiu o DBRX, à equipe, que respondeu com gritos, gritos e emojis de aplausos. Frankle geralmente evita cafeína, mas estava tomando goles de café com leite gelado depois de passar a noite inteira escrevendo os resultados.

A Databricks lançará o DBRX sob uma licença de código aberto, permitindo que outros desenvolvam seu trabalho. Frankle compartilhou dados mostrando que, em cerca de uma dúzia de benchmarks que medem a capacidade do modelo de IA de responder questões de conhecimento geral, realizar compreensão de leitura, resolver quebra-cabeças lógicos incômodos e gerar código de alta qualidade, o DBRX era melhor do que qualquer outro modelo de código aberto disponível.

Tomadores de decisão de IA: Jonathan Frankle, Naveen Rao, Ali Ghodsi e Hanlin Tang.Fotografia: Gabriela Hasbun

Ele superou o Llama 2 da Meta e o Mixtral da Mistral, dois dos modelos de IA de código aberto mais populares disponíveis atualmente. “Sim!” gritou Ali Ghodsi, CEO da Databricks, quando as pontuações apareceram. “Espere, nós vencemos o negócio do Elon?” Frankle respondeu que eles realmente superaram o modelo Grok AI recentemente disponibilizado pelo xAI de Musk, acrescentando: “Considerarei um sucesso se recebermos um tweet maldoso dele”.

Para surpresa da equipe, em vários aspectos o DBRX também ficou surpreendentemente próximo do GPT-4, o modelo fechado da OpenAI que alimenta o ChatGPT e é amplamente considerado o auge da inteligência de máquina. “Estabelecemos um novo estado da arte para LLMs de código aberto”, disse Frankle com um sorriso enorme.

Blocos de construção

Ao abrir o código-fonte, a DBRX Databricks está adicionando ainda mais impulso a um movimento que desafia a abordagem secreta das empresas mais proeminentes no atual boom de IA generativa. OpenAI e Google mantêm o código de seus modelos de linguagem grande GPT-4 e Gemini em segredo, mas alguns rivais, principalmente Meta, lançaram seus modelos para uso de outros, argumentando que isso estimulará a inovação ao colocar a tecnologia nas mãos de mais pesquisadores, empreendedores, startups e empresas estabelecidas.

Databricks diz que também quer se abrir sobre o trabalho envolvido na criação de seu modelo de código aberto, algo que Meta não fez para alguns detalhes importantes sobre a criação de seu modelo Llama 2. A empresa lançará uma postagem no blog detalhando o trabalho envolvido na criação do modelo e também convidou a WIRED para passar um tempo com os engenheiros da Databricks enquanto eles tomavam decisões importantes durante os estágios finais do processo multimilionário de treinamento do DBRX. Isso proporcionou uma ideia de quão complexo e desafiador é construir um modelo líder de IA – mas também de como as inovações recentes neste campo prometem reduzir custos. Isso, combinado com a disponibilidade de modelos de código aberto como o DBRX, sugere que o desenvolvimento da IA ​​não irá desacelerar tão cedo.

Ali Farhadi, CEO da Instituto Allen de IA, afirma que é extremamente necessária maior transparência em torno da construção e formação de modelos de IA. O campo tornou-se cada vez mais secreto nos últimos anos, à medida que as empresas buscavam uma vantagem sobre os concorrentes. A opacidade é especialmente importante quando há preocupação com os riscos que os modelos avançados de IA podem representar, diz ele. “Estou muito feliz em ver qualquer esforço de abertura”, diz Farhadi. “Acredito que uma parcela significativa do mercado migrará para modelos abertos. Precisamos de mais disso.”



Source link

Related Articles

Deixe um comentário