Home Economia Essas pistas sugerem a verdadeira natureza do projeto Shadowy Q* da OpenAI

Essas pistas sugerem a verdadeira natureza do projeto Shadowy Q* da OpenAI

Por Humberto Marchezini


Existem outras pistas sobre o que poderia ser Q*. O nome pode ser uma alusão a Q-aprendizagem, uma forma de aprendizagem por reforço que envolve um algoritmo aprendendo a resolver um problema por meio de feedback positivo ou negativo, que tem sido usado para criar bots de jogo e para ajustar o ChatGPT para ser mais útil. Alguns sugeriram que o nome também pode estar relacionado ao Algoritmo de pesquisa A*amplamente utilizado para que um programa encontre o caminho ideal para uma meta.

A informação lança outra pista: “A descoberta de Sutskever permitiu que a OpenAI superasse as limitações na obtenção de dados de alta qualidade suficientes para treinar novos modelos”, diz sua história. “A pesquisa envolveu o uso de (dados) gerados por computador, em vez de dados do mundo real, como textos ou imagens extraídas da Internet, para treinar novos modelos.” Isso parece ser uma referência à ideia de treinar algoritmos com os chamados dados de treinamento sintéticos, que surgiram como uma forma de treinar modelos de IA mais poderosos.

Subbarao Kambhampati, professor da Arizona State University que está pesquisando as limitações de raciocínio dos LLMs, acredita que Q* pode envolver o uso de grandes quantidades de dados sintéticos, combinados com aprendizagem por reforço, para treinar LLMs para tarefas específicas, como aritmética simples. Kambhampati observa que não há garantia de que a abordagem se generalizará em algo que possa descobrir como resolver qualquer problema matemático possível.

Para mais especulações sobre o que Q* poderia ser, leia esta postagem por um cientista de aprendizado de máquina que reúne o contexto e as pistas com detalhes impressionantes e lógicos. A versão TLDR é que Q* poderia ser um esforço para usar o aprendizado por reforço e algumas outras técnicas para melhorar a capacidade de um grande modelo de linguagem de resolver tarefas raciocinando através de etapas ao longo do caminho. Embora isso possa tornar o ChatGPT melhor em enigmas matemáticos, não está claro se isso sugeriria automaticamente que os sistemas de IA poderiam escapar do controle humano.

Que a OpenAI tentasse usar o aprendizado por reforço para melhorar os LLMs parece plausível porque muitos dos primeiros projetos da empresa, como bots para jogar videogame, estavam centrados na técnica. A aprendizagem por reforço também foi fundamental para a criação do ChatGPT, porque pode ser usada para fazer com que os LLMs produzam respostas mais coerentes, pedindo aos humanos que forneçam feedback enquanto conversam com um chatbot. Quando a WIRED conversou com Demis Hassabis, CEO do Google DeepMind, no início deste ano, ele deu a entender que a empresa estava tentando combinar ideias de aprendizagem por reforço com avanços vistos em grandes modelos de linguagem.

Reunindo as pistas disponíveis sobre Q*, dificilmente parece um motivo para pânico. Mas então, tudo depende do seu pessoal P(desgraça) valor – a probabilidade que você atribui à possibilidade de a IA destruir a humanidade. Muito antes do ChatGPT, os cientistas e líderes da OpenAI ficaram inicialmente tão assustados com o desenvolvimento do GPT-2, um gerador de texto de 2019 que agora parece ridiculamente insignificante, que disseram que não poderia ser divulgado publicamente. Agora a empresa oferece acesso gratuito a sistemas muito mais poderosos.

OpenAI recusou-se a comentar sobre Q*. Talvez obtenhamos mais detalhes quando a empresa decidir que é hora de compartilhar mais resultados de seus esforços para tornar o ChatGPT não apenas bom em falar, mas também em raciocínio.



Source link

Related Articles

Deixe um comentário