Em abril de 2022, quando o Dall-E, um modelo visiolinguístico de texto para imagem, foi lançado, ele supostamente atraiu mais de um milhões de usuários nos primeiros três meses. Seguiu-se o ChatGPT, em janeiro de 2023, que aparentemente atingiu 100 milhões usuários ativos mensais apenas dois meses após o lançamento. Ambos marcam momentos notáveis no desenvolvimento da IA generativa, que por sua vez trouxe uma explosão de conteúdo gerado por IA na web. A má notícia é que, em 2024, isto significa que também veremos uma explosão de informações fabricadas e sem sentido, informações falsas e desinformadas, e a exacerbação de estereótipos sociais negativos codificados nestes modelos de IA.
A revolução da IA não foi estimulada por nenhum avanço teórico recente – na verdade, a maior parte do trabalho fundamental subjacente às redes neurais artificiais existe há décadas – mas pela “disponibilidade” de enormes conjuntos de dados. Idealmente, um modelo de IA captura um determinado fenómeno – seja a linguagem humana, a cognição ou o mundo visual – de uma forma que seja representativa o mais próximo possível dos fenómenos reais.
Por exemplo, para que um modelo de linguagem grande (LLM) gere texto semelhante ao humano, é importante que o modelo seja alimentado com grandes volumes de dados que de alguma forma representem a linguagem, a interação e a comunicação humanas. A crença é que quanto maior o conjunto de dados, melhor ele captura os assuntos humanos, em toda a sua inerente beleza, feiúra e até mesmo crueldade. Estamos em uma era marcada pela obsessão em ampliar modelos, conjuntos de dados e GPUs. Os atuais LLMs, por exemplo, entraram agora em uma era de modelos de aprendizado de máquina com trilhões de parâmetros, o que significa que exigem conjuntos de dados de bilhões de tamanhos. Onde nós podemos encontrar isso? Na internet.
Presume-se que esses dados provenientes da Web capturem a “verdade básica” para a comunicação e interação humana, um proxy a partir do qual a linguagem pode ser modelada. Embora vários investigadores tenham agora demonstrado que os conjuntos de dados online são muitas vezes de má qualidadequerer exacerbar estereótipos negativose contêm conteúdo problemático, como insultos raciais e discurso odiosomuitas vezes dirigido a grupos marginalizados, isto não impediu as grandes empresas de IA de utilizarem esses dados na corrida para crescerem.
Com a IA generativa, esse problema está prestes a piorar muito. Em vez de representar o mundo social a partir de dados de entrada de uma forma objectiva, estes modelos codificam e amplificam estereótipos sociais. Na verdade, recente trabalhar mostra que modelos generativos codificam e reproduzir atitudes racistas e discriminatórias em relação a identidades, culturas e línguas historicamente marginalizadas.
É difícil, se não impossível, mesmo com ferramentas de detecção de última geração, saber com certeza quantos dados de texto, imagem, áudio e vídeo estão sendo gerados atualmente e em que ritmo. Os pesquisadores da Universidade de Stanford, Hans Hanley e Zakir Durumeric, estimam um Aumento de 68 por cento no número de artigos sintéticos postados no Reddit e um aumento de 131% em artigos de notícias sobre desinformação entre 1º de janeiro de 2022 e 31 de março de 2023. Boomyuma empresa geradora de música online, afirma ter gerado 14,5 milhões de músicas (ou 14% da música gravada) até agora. Em 2021, a Nvidia previu que, até 2030, haverá mais dados sintéticos do que dados reais em modelos de IA. Uma coisa é certa: a web está sendo inundada por dados gerados sinteticamente.
O que é preocupante é que estas vastas quantidades de resultados de IA generativa serão, por sua vez, utilizadas como material de formação para futuros modelos de IA generativa. Como resultado, em 2024, uma parte muito significativa do material de formação para modelos generativos será composta por dados sintéticos produzidos a partir de modelos generativos. Em breve, estaremos presos em um loop recursivo onde treinaremos modelos de IA usando apenas dados sintéticos produzidos por modelos de IA. A maior parte disto estará contaminada com estereótipos que continuarão a amplificar as desigualdades históricas e sociais. Infelizmente, estes também serão os dados que utilizaremos para treinar modelos generativos aplicados a sectores de alto risco, incluindo medicina, terapia, educação e direito. Ainda temos que lidar com as consequências desastrosas disso. Em 2024, a explosão generativa de conteúdo da IA que consideramos tão fascinante agora se tornará um enorme depósito tóxico que voltará para nos atacar.