Home Economia As habilidades emergentes dos grandes modelos de linguagem são uma miragem

As habilidades emergentes dos grandes modelos de linguagem são uma miragem

Por Humberto Marchezini


A versão original de essa história apareceu em Revista Quanta.

Há dois anos, num projecto chamado Além do benchmark do Jogo de Imitação, ou BIG-bench, 450 pesquisadores compilaram uma lista de 204 tarefas projetadas para testar os recursos de grandes modelos de linguagem, que potencializam chatbots como o ChatGPT. Na maioria das tarefas, o desempenho melhorou de forma previsível e suave à medida que os modelos foram ampliados – quanto maior o modelo, melhor ele ficou. Mas com outras tarefas, o salto na capacidade não foi tranquilo. O desempenho permaneceu próximo de zero por um tempo, depois o desempenho aumentou. Outros estudos encontraram saltos semelhantes na capacidade.

Os autores descreveram isso como um comportamento “inovador”; outros pesquisadores compararam isso a uma transição de fase na física, como quando a água líquida congela e se transforma em gelo. Em um papel publicado em agosto de 2022, os pesquisadores observaram que esses comportamentos não são apenas surpreendentes, mas também imprevisíveis, e que devem informar a evolução das conversas sobre segurança, potencial e risco da IA. Eles chamaram as habilidades de “emergente”, uma palavra que descreve comportamentos coletivos que só aparecem quando um sistema atinge um alto nível de complexidade.

Mas as coisas podem não ser tão simples. Um novo artigo por um trio de pesquisadores da Universidade de Stanford postula que o aparecimento repentino dessas habilidades é apenas uma consequência da forma como os pesquisadores medem o desempenho do LLM. As habilidades, argumentam eles, não são imprevisíveis nem repentinas. “A transição é muito mais previsível do que as pessoas imaginam”, disse Sanmi Koyejo, cientista da computação em Stanford e autor sênior do artigo. “Fortes alegações de emergência têm tanto a ver com a forma como escolhemos medir como com o que os modelos estão fazendo.”

Só agora estamos vendo e estudando esse comportamento devido ao tamanho desses modelos. Grandes modelos de linguagem são treinados analisando enormes conjuntos de dados de texto—palavras de fontes on-line, incluindo livros, pesquisas na web e Wikipédia — e encontrar links entre palavras que geralmente aparecem juntas. O tamanho é medido em termos de parâmetros, aproximadamente análogo a todas as maneiras pelas quais as palavras podem ser conectadas. Quanto mais parâmetros, mais conexões um LLM pode encontrar. O GPT-2 tinha 1,5 bilhão de parâmetros, enquanto o GPT-3.5, o LLM que alimenta o ChatGPT, usa 350 bilhões. O GPT-4, que estreou em março de 2023 e agora é a base do Microsoft Copilot, supostamente usa 1,75 trilhão.

Esse rápido crescimento trouxe um aumento surpreendente no desempenho e na eficácia, e ninguém contesta que LLMs grandes o suficiente podem completar tarefas que modelos menores não conseguem, incluindo aquelas para as quais não foram treinados. O trio de Stanford que considera a emergência uma “miragem” reconhece que os LLMs se tornam mais eficazes à medida que crescem; na verdade, a complexidade adicional de modelos maiores deverá permitir melhorar a resolução de problemas mais difíceis e diversos. Mas eles argumentam que se essa melhoria parece suave e previsível ou irregular e nítida resulta da escolha da métrica – ou mesmo da escassez de exemplos de teste – e não do funcionamento interno do modelo.



Source link

Related Articles

Deixe um comentário