OpenAI, Google e outras empresas de tecnologia treinam seus chatbots com enormes quantidades de dados coletados de livros, artigos da Wikipédia, notícias e outras fontes na Internet. Mas no futuro, eles esperam usar algo chamado dados sintéticos.
Isso porque as empresas de tecnologia podem esgotar o texto de alta qualidade que a Internet tem a oferecer para o desenvolvimento da inteligência artificial. E as empresas enfrentam processos judiciais de direitos de autor movidos por autores, organizações noticiosas e programadores informáticos por utilizarem as suas obras sem autorização. (Em um desses processos, o The New York Times processou a OpenAI e a Microsoft.)
Eles acreditam que os dados sintéticos ajudarão a reduzir questões de direitos autorais e aumentarão o fornecimento de materiais de treinamento necessários para IA. Veja o que você deve saber sobre isso.
O que são dados sintéticos?
São dados gerados por inteligência artificial.
Isso significa que as empresas de tecnologia querem que a IA seja treinada pela IA?
Sim. Em vez de treinar modelos de IA com textos escritos por pessoas, empresas de tecnologia como Google, OpenAI e Anthropic esperam treinar a sua tecnologia com dados gerados por outros modelos de IA.
Os dados sintéticos funcionam?
Não exatamente. Os modelos de IA erram e inventam coisas. Eles também demonstraram que captam os preconceitos que aparecem nos dados da Internet a partir dos quais foram treinados. Portanto, se as empresas usarem IA para treinar IA, poderão acabar amplificando suas próprias falhas.
Os dados sintéticos são amplamente utilizados pelas empresas de tecnologia neste momento?
Não. As empresas de tecnologia estão fazendo experiências com isso. Mas devido às potenciais falhas dos dados sintéticos, estes não constituem uma grande parte da forma como os sistemas de IA são construídos hoje.
Então, por que as empresas de tecnologia dizem que os dados sintéticos são o futuro?
As empresas pensam que podem refinar a forma como os dados sintéticos são criados. OpenAI e outros exploraram uma técnica em que dois modelos diferentes de IA trabalham juntos para gerar dados sintéticos que são mais úteis e confiáveis.
Um modelo de IA gera os dados. Em seguida, um segundo modelo julga os dados, tal como um ser humano faria, decidindo se os dados são bons ou maus, precisos ou não. Os modelos de IA são, na verdade, melhores para julgar textos do que escrevê-los.
“Se você der duas coisas à tecnologia, ela será muito boa em escolher qual delas parece melhor”, disse Nathan Lile, executivo-chefe da startup de IA SynthLabs.
A ideia é que isso forneça os dados de alta qualidade necessários para treinar um chatbot ainda melhor.
Essa técnica funciona?
Tipo de. Tudo se resume a esse segundo modelo de IA. Quão bom é julgar o texto?
A Anthropic tem sido a mais eloquente sobre seus esforços para fazer isso funcionar. Ele ajusta o segundo modelo de IA usando uma “constituição” com curadoria dos pesquisadores da empresa. Isto ensina o modelo a escolher textos que apoiem certos princípios, como liberdade, igualdade e sentido de fraternidade, ou vida, liberdade e segurança pessoal. O método da Antrópico é conhecido como “IA Constitucional”
Veja como dois modelos de IA funcionam em conjunto para produzir dados sintéticos usando um processo como o da Anthropic:
Mesmo assim, são necessários seres humanos para garantir que o segundo modelo de IA permaneça no caminho certo. Isso limita a quantidade de dados sintéticos que esse processo pode gerar. E os pesquisadores discordam sobre se um método como o da Antrópico continuará a melhorar os sistemas de IA.
Os dados sintéticos ajudam as empresas a evitar o uso de informações protegidas por direitos autorais?
Os próprios modelos de IA que geram dados sintéticos foram treinados em dados criados por humanos, muitos dos quais protegidos por direitos autorais. Portanto, os detentores de direitos autorais ainda podem argumentar que empresas como OpenAI e Anthropic usaram textos, imagens e vídeos protegidos por direitos autorais sem permissão.
Jeff Clune, professor de ciência da computação da Universidade de British Columbia que anteriormente trabalhou como pesquisador na OpenAI, disse que os modelos de IA poderiam, em última análise, se tornar mais poderosos do que o cérebro humano em alguns aspectos. Mas farão isso porque aprenderam com o cérebro humano.
“Pegando emprestado de Newton: a IA vê mais longe ao se apoiar em gigantescos conjuntos de dados humanos”, disse ele.