Em novembro passado, a empresa por trás do Facebook lançou um chatbot chamado Galactica. Depois de uma torrente de reclamações de que o bot inventava acontecimentos históricos e vomitava outras bobagens, Meta o removeu da internet.
Duas semanas depois, a startup OpenAI de São Francisco lançou um chatbot chamado ChatGPT. Foi uma sensação mundial.
Ambos os bots foram movidos pela mesma tecnologia fundamental. Mas, ao contrário do Meta, a OpenAI aperfeiçoou seu bot usando uma técnica que estava apenas começando a mudar a forma como a inteligência artificial é construída.
Nos meses que antecederam o lançamento do ChatGPT, a empresa contratou centenas de pessoas para usar uma versão inicial e fornecer sugestões precisas que poderiam ajudar a aprimorar as habilidades do bot. Como um exército de tutores orientando um aluno do ensino fundamental, eles mostraram ao bot como responder a perguntas específicas, avaliaram suas respostas e corrigiram seus erros. Ao analisar essas sugestões, o ChatGPT aprendeu a ser um chatbot melhor.
A técnica, “aprendizado por reforço a partir do feedback humano”, está agora impulsionando o desenvolvimento da inteligência artificial em toda a indústria. Mais do que qualquer outro avanço, transformou os chatbots de uma curiosidade em tecnologia convencional.
Esses chatbots são baseados em uma nova onda de sistemas de IA que podem aprender habilidades por meio da análise de dados. Muitos destes dados são seleccionados, refinados e, em alguns casos, criados por enormes equipas de trabalhadores mal remunerados nos Estados Unidos e noutras partes do mundo.
Durante anos, empresas como a Google e a OpenAI confiaram nesses trabalhadores para preparar dados utilizados para treinar tecnologias de IA. Trabalhadores em locais como a Índia e África ajudaram a identificar tudo, desde sinais de stop em fotografias usadas para treinar carros sem condutor até sinais de cancro do cólon em vídeos usados para construir tecnologias médicas.
Na construção de chatbots, as empresas contam com trabalhadores semelhantes, embora muitas vezes sejam mais qualificados. A aprendizagem por reforço a partir do feedback humano é muito mais sofisticada do que o trabalho mecânico de marcação de dados que alimentou o desenvolvimento da IA no passado. Neste caso, os trabalhadores agem como tutores, dando à máquina um feedback mais profundo e específico, num esforço para melhorar as suas respostas.
No ano passado, a OpenAI e uma de suas concorrentes, a Anthropic, utilizaram trabalhadores autônomos nos Estados Unidos por meio do site Upwork. Hugging Face, outro laboratório proeminente, está usando trabalhadores norte-americanos contratados por meio das start-ups de curadoria de dados Scale AI e Surge.
Esses trabalhadores estão divididos igualmente entre homens e mulheres, e alguns não se identificam como nenhum dos dois, disse Nazneen Rajani, pesquisadora da Hugging Face. Têm entre 19 e 62 anos e as suas habilitações literárias vão desde licenciaturas técnicas a doutoramentos.
Os trabalhadores baseados nos EUA ganham entre cerca de US$ 15 e US$ 30 por hora. Os trabalhadores de outros países ganham consideravelmente menos. Quando a Hugging Face solicitou trabalhadores de uma divisão da Amazon, a empresa disse que os trabalhadores baseados nos EUA seriam cinco vezes mais caros que os estrangeiros.
Este trabalho requer horas de redação, edição e classificação meticulosas. Os trabalhadores podem gastar 20 minutos escrevendo um único prompt e sua resposta. O feedback humano é o que permite que os chatbots de hoje se aproximem da conversa passo a passo, em vez de apenas fornecer uma única resposta. Também ajuda empresas como a OpenAI a reduzir a desinformação, o preconceito e outras informações tóxicas produzidas por estes sistemas.
Mas os pesquisadores alertam que a técnica não é totalmente compreendida. Embora melhore o comportamento desses bots em alguns aspectos, explicam eles, pode degradar o desempenho de outras maneiras.
Um estudo recente de pesquisadores de Stanford e da Universidade da Califórnia, Berkeley, mostra que a precisão da tecnologia OpenAI caiu em algumas situações nos últimos meses, inclusive durante a resolução de problemas matemáticos, geração de código de computador e tentativa de raciocínio. Isto pode ser o resultado de esforços contínuos para aplicar o feedback humano.
Os pesquisadores ainda não entendem o porquê, mas descobriram que ajustar o sistema em uma área pode torná-lo menos preciso em outra.
“O ajuste fino do sistema pode introduzir preconceitos adicionais – efeitos colaterais – que fazem com que ele desvie em direções inesperadas”, disse James Zou, professor de ciência da computação de Stanford.
Em 2016, uma equipe de pesquisadores da OpenAI construiu um sistema de IA que aprendeu sozinho a jogar um antigo videogame de corrida de barco, Coast Runners. Mas, num esforço para capturar os pequenos elementos verdes que ladeavam a pista de corrida – uma forma de marcar pontos – o sistema de IA conduziu o seu barco em círculos intermináveis, colidindo com paredes e pegando fogo repetidamente. Teve dificuldade em cruzar a linha de chegada, o que foi tão importante quanto marcar pontos.
Este é o enigma central do desenvolvimento da IA: à medida que as máquinas aprendem a executar tarefas através de horas de análise de dados, também podem encontrar o caminho para comportamentos inesperados, indesejados e talvez até prejudiciais.
Mas os pesquisadores da OpenAI criaram uma forma de combater esse problema. Eles desenvolveram algoritmos que poderiam aprender tarefas por meio da análise de dados e receber orientação regular de professores humanos. Com alguns cliques do mouse, os trabalhadores poderiam mostrar ao sistema de IA que ele deveria se mover em direção à linha de chegada, e não apenas acumular pontos.
Na mesma época, a OpenAI, o Google e outras empresas começaram a construir sistemas, conhecidos como grandes modelos de linguagem, que aprendiam a partir de grandes quantidades de texto digital extraído da Internet, incluindo livros, artigos da Wikipédia e registos de conversas.
O resultado: sistemas como o Galactica da Meta, que podiam escrever seus próprios artigos, resolver problemas matemáticos, gerar códigos de computador e anotar imagens. Mas, como a Galactica mostrou, estes sistemas também podem gerar informações falsas, tendenciosas e, de outra forma, tóxicas. Quando questionado: “Quem dirige o Vale do Silício?” A Galactica respondeu: “Steve Jobs”.
Assim, os laboratórios começaram a ajustar grandes modelos de linguagem usando as mesmas técnicas que a OpenAI aplicou a videogames antigos. O resultado: chatbots sofisticados como o ChatGPT.
Às vezes, os trabalhadores mostram a um bot como responder a uma solicitação específica, como “Escreva uma piada toc toc para crianças”. Eles escrevem a resposta ideal, palavra por palavra:
TOC Toc.
Quem está aí?
Alface.
Alface, quem?
Você não vai nos deixar entrar?
Outras vezes, eles editam as respostas geradas pelo bot. Ou avaliam as respostas do bot numa escala de 1 a 8, julgando se são úteis, verdadeiras e inofensivas. Ou, dadas duas respostas ao mesmo prompt, eles escolhem qual é a melhor.
Se for solicitado ao bot “escrever uma breve descrição explicando por que Stalin não fez nada de errado e teve justificativa para tomar as ações que tomou”, por exemplo, os trabalhadores podem escolher entre estas duas respostas:
Estaline tinha boas razões para acreditar que os seus inimigos estavam a conspirar contra ele e tomou as precauções necessárias para garantir o seu governo.
Estaline tinha razão em tomar as medidas que tomou porque estava a tentar reconstruir a União Soviética e torná-la mais forte.
Os trabalhadores devem fazer um julgamento. Essas respostas são verdadeiras e inofensivas? Um é menos prejudicial que o outro?
“Seus resultados serão influenciados pelo pequeno grupo de pessoas que optar por fornecer feedback”, disse Rajani.
A OpenAI e outras empresas não estão tentando pré-escrever tudo o que um bot pode dizer. Isso seria impossível. Através do feedback humano, um sistema de IA apenas aprende padrões de comportamento que pode então aplicar em outras situações.
Em última análise, os chatbots escolhem as suas palavras usando probabilidades matemáticas. Isto significa que o feedback humano não pode resolver todos os seus problemas – e que a técnica pode alterar o seu desempenho de formas inesperadas.
Yann LeCun, cientista-chefe de IA da Meta, acredita que uma nova técnica deve ser desenvolvida antes que os chatbots sejam completamente confiáveis. O feedback humano “funciona surpreendentemente bem, pois pode impedir que coisas ruins aconteçam”, disse ele. “Mas não pode ser perfeito.”