Num vídeo TikTok habilmente produzido, o ex-presidente Barack Obama – ou uma voz assustadoramente como a dele – pode ser ouvido defendendo-se contra uma nova e explosiva teoria da conspiração sobre a morte repentina de seu ex-chef.
“Embora eu não consiga compreender a base das alegações feitas contra mim”, diz a voz, “exorto todos a se lembrarem da importância da unidade, da compreensão e de não se precipitarem em julgamentos”.
Na verdade, a voz não pertencia ao ex-presidente. Foi uma farsa convincente, gerada pela inteligência artificial usando novas ferramentas sofisticadas que podem clonar vozes reais para criar fantoches de IA com apenas alguns cliques do mouse.
A tecnologia usada para criar vozes de IA ganhou força e grande aclamação desde que empresas como OnzeLabs lançou uma série de novas ferramentas no final do ano passado. Desde então, as falsificações de áudio tornaram-se rapidamente uma nova arma no campo de batalha da desinformação online, ameaçando turbinar a desinformação política antes das eleições de 2024, dando aos criadores uma forma de colocar as suas teorias da conspiração na boca de celebridades, apresentadores de notícias e políticos.
O áudio falso se soma às ameaças geradas por IA de vídeos “deepfake”, escrita humana do ChatGPT e imagens de serviços como o Midjourney.
Os vigilantes da desinformação notaram que o número de vídeos contendo vozes de IA aumentou à medida que produtores de conteúdo e vendedores de desinformação adotam as novas ferramentas. Plataformas sociais como o TikTok estão lutando para sinalizar e rotular esse conteúdo.
O vídeo que parecia o do Sr. Obama foi descoberto por NewsGuard, uma empresa que monitora a desinformação online. O vídeo foi publicado por uma das 17 contas do TikTok que promovem alegações infundadas com áudio falso que o NewsGuard identificou, de acordo com um relatório que o grupo divulgou em setembro. As contas publicaram principalmente vídeos sobre rumores de celebridades usando narração de uma voz de IA, mas também promoveram a afirmação infundada de que Obama é gay e a teoria da conspiração de que Oprah Winfrey está envolvida no comércio de escravos. Os canais receberam coletivamente centenas de milhões de visualizações e comentários que sugeriam que alguns telespectadores acreditavam nas afirmações.
Embora os canais não tivessem uma agenda política óbvia, disse o NewsGuard, o uso de vozes de IA para compartilhar fofocas e rumores obscenos ofereceu um roteiro para maus atores que queriam manipular a opinião pública e compartilhar falsidades para o público em massa online.
“É uma forma de essas contas ganharem posição, conquistarem seguidores que possam atrair o envolvimento de um público amplo”, disse Jack Brewster, editor empresarial da NewsGuard. “Uma vez que tenham a credibilidade de ter um grande número de seguidores, eles podem mergulhar em mais conteúdo conspiratório.”
O TikTok exige rótulos que divulguem conteúdo realista gerado por IA como falso, mas eles não apareceram nos vídeos sinalizados pelo NewsGuard. A TikTok disse que removeu ou parou de recomendar várias contas e vídeos por violarem políticas sobre se passarem por organizações de notícias e espalharem informações incorretas prejudiciais. Também removeu o vídeo usando a voz gerada por IA que imitava a de Obama por violar a política de mídia sintética do TikTok, pois continha conteúdo altamente realista não rotulado como alterado ou falso.
“O TikTok é a primeira plataforma a fornecer uma ferramenta para os criadores rotularem o conteúdo gerado por IA e um membro inaugural de um novo código de melhores práticas da indústria que promove o uso responsável de mídia sintética”, disse Jamie Favazza, porta-voz do TikTok, referindo-se a uma estrutura introduzida recentemente pela organização sem fins lucrativos Parceria em IA
Embora o relatório do NewsGuard tenha se concentrado no TikTok, que tem cada vez mais tornou-se fonte de notícias, conteúdo semelhante foi encontrado espalhado no YouTube, Instagram e Facebook.
Plataformas como o TikTok permitem conteúdo de figuras públicas gerado por IA, incluindo apresentadores de notícias, desde que não espalhem informações erradas. Vídeos de paródia mostrando conversas geradas por IA entre políticos, celebridades ou líderes empresariais – alguns mortos – se espalharam amplamente desde que as ferramentas se tornaram populares. O áudio manipulado adiciona uma nova camada aos vídeos enganosos nas plataformas que já apresentavam versões falsas de Tom Cruise, Elon Musk e apresentadores como Gayle King e Norah O’Donnell. O TikTok e outras plataformas têm lutado recentemente com uma onda de anúncios enganosos apresentando deepfakes de celebridades como o Sr. Cruise e a estrela do YouTube Senhor Besta.
O poder dessas tecnologias pode influenciar profundamente os espectadores. “Sabemos que áudio e vídeo talvez estejam mais gravados em nossas memórias do que texto”, disse Claire Leibowicz, chefe de IA e integridade de mídia da Partnership on AI, que trabalhou com empresas de tecnologia e mídia em um conjunto de recomendações para a criação, compartilhar e distribuir conteúdo gerado por IA.
A TikTok disse no mês passado que estava introduzindo um rótulo que os usuários poderiam selecionar para mostrar se seus vídeos usavam IA. Em abril, o aplicativo iniciado exigindo que os usuários divulguem mídias manipuladas mostrando cenas realistas e proibindo deepfakes de jovens e figuras privadas. David G. Rand, professor de ciências de gestão no Instituto de Tecnologia de Massachusetts, a quem a TikTok consultou para obter conselhos sobre como redigir os novos rótulos, disse que os rótulos eram de uso limitado quando se tratava de desinformação porque “as pessoas que estão tentando ser enganosos não vão colocar o rótulo em suas coisas.”
A TikTok também disse no mês passado que estava testando ferramentas automatizadas para detectar e rotular mídia gerada por IA, o que, segundo Rand, seria mais útil, pelo menos no curto prazo.
O YouTube proíbe o uso de IA em anúncios políticos e exige que outros anunciantes rotulem seus anúncios quando a IA for usada. A Meta, dona do Facebook, adicionou um rótulo ao seu kit de ferramentas de verificação de fatos em 2020 que descreve se um vídeo é “alterado.” E o X, anteriormente conhecido como Twitter, exige conteúdo enganoso ser “alterado, manipulado ou fabricado de forma significativa e enganosa” para violar suas políticas. A empresa não respondeu aos pedidos de comentários.
A voz de IA do Sr. Obama foi criada usando ferramentas de OnzeLabs, uma empresa que estourou no cenário internacional no final do ano passado com sua ferramenta de conversão de texto em fala de IA gratuita, capaz de produzir áudio realista em segundos. A ferramenta também permitiu aos usuários fazer upload de gravações da voz de alguém e produzir uma cópia digital.
Depois que a ferramenta foi lançada, os usuários do 4chan, o fórum de mensagens da direita, organizado para criar uma versão falsa da atriz Emma Watson lendo um discurso anti-semita.
A ElevenLabs, uma empresa com 27 funcionários e sede na cidade de Nova York, respondeu ao uso indevido limitando o recurso de clonagem de voz a usuários pagos. A empresa também divulgou uma ferramenta de detecção de IA que seja capaz de identificar conteúdos de IA produzidos pelos seus serviços.
“Mais de 99 por cento dos usuários de nossa plataforma estão criando conteúdo interessante, inovador e útil”, disse um representante da ElevenLabs em um comunicado por e-mail, “mas reconhecemos que há casos de uso indevido e temos desenvolvido e lançado continuamente salvaguardas para contê-los.”
Em testes do The New York Times, o detector da ElevenLabs identificou com sucesso o áudio das contas do TikTok como gerado por IA. Mas a ferramenta falhou quando música foi adicionada ao clipe ou quando o áudio foi distorcido, sugerindo que os vendedores de desinformação poderiam facilmente escapar à detecção.
Empresas e acadêmicos de IA exploraram outros métodos para identificar áudio falso, com resultados mistos. Algumas empresas exploraram a adição de uma marca d’água invisível ao áudio de IA, incorporando sinais de que ele foi gerado por IA. Outros pressionaram as empresas de IA a limitar as vozes que podem ser clonadas, potencialmente proibindo réplicas de políticos como Obama – uma prática já em vigor com algumas ferramentas de geração de imagens como Dall-E, que se recusa a gerar algumas imagens políticas.
Leibowicz, da Partnership on AI, disse que o áudio sintético era um desafio único para os ouvintes sinalizarem em comparação com as alterações visuais.
“Se fôssemos um podcast, você precisaria de um rótulo a cada cinco segundos?” Sra. Leibowicz disse. “Como você tem um sinal consistente em um trecho longo de áudio?”
Mesmo que as plataformas adotem detectores de IA, a tecnologia deve melhorar constantemente para acompanhar os avanços na geração de IA.
A TikTok disse que está desenvolvendo novos métodos de detecção internamente e explorando opções para parcerias externas.
“Grandes empresas de tecnologia, empresas multibilionárias ou mesmo trilionárias – elas são incapazes de fazer isso? Isso é surpreendente para mim”, disse Hafiz Malik, professor da Universidade de Michigan-Dearborn que está desenvolvendo detectores de áudio de IA. “Se eles intencionalmente não quiserem fazer isso? Isso é compreensível. Mas eles não podem fazer isso? Eu não aceito isso.”
Áudio produzido por Adriane Hurst.