Em 2010, Marcos Zuckerberg disse ao público numa cerimónia de entrega de prémios do TechCrunch que os jovens – especialmente os utilizadores das redes sociais – já não se importavam com a privacidade. “As pessoas realmente se sentiram confortáveis não apenas em compartilhar mais informações e de diferentes tipos, mas também de forma mais aberta e com mais pessoas”, disse ele. “Essa norma social é apenas algo que evoluiu ao longo do tempo.” Embora esta declaração obviamente não tenha envelhecido bem, reflecte uma crença comum de que violações de privacidade acontecem quando indivíduos revelam as suas próprias informações. Em outras palavras, quando algo postado no Reddit ou no TikTok se torna viral, ou uma foto de nudez enviada a um admirador vaza, a culpa é, antes de mais nada, da pessoa que postou. Este modelo de responsabilização individualizada é muito persistente. Também está completamente errado. E é irrelevante na era da IA generativa.
A IA generativa elimina completamente a ideia de responsabilidade individual pela privacidade porque você não pode controlar o acesso desses algoritmos às suas informações, ou o que eles fazem com elas. Ferramentas como ChatGPT, Dall-E e Google Bard são treinadas em dados coletados sem consentimento ou mesmo aviso prévio. Na pior das hipóteses, os conjuntos de treinamento sugam grandes quantidades de informações digitais e as combinam em uma pasta de dados que serve como matéria-prima para a IA generativa. À medida que as empresas tecnológicas se esforçam por incorporar a IA generativa em todos os produtos imagináveis, desde motores de busca a jogos e dispositivos militares, é impossível saber para onde vai este resultado ou como poderá ser interpretado. Os seus antecessores que violam a privacidade, os corretores de dados, também vasculharam a Web e montaram enormes dossiês sobre indivíduos, mas os seus resultados não estão disponíveis para a pessoa média, gratuitamente, ou integrados em motores de busca e processadores de texto. A ampla disponibilidade de IA generativa agrava potenciais violações de privacidade e expõe mais pessoas a consequências prejudiciais.
Os enormes corpora empregados pela IA generativa contêm inevitavelmente informações sobre pessoas que não foram fornecidas, criadas ou mesmo conhecidas por estarem disponíveis. Registros públicos sobre casamentos, hipotecas e registro eleitoral são todos um jogo justo, assim como notícias, biografias de funcionários e páginas da Wikipédia. Mas a pasta também contém milhões de fotografias e vídeos; Dall-E, por exemplo, foi treinado em imagens coletadas de mídias sociais, mecanismos de busca e sites de hospedagem de imagens. Então, se você estiver no fundo de uma foto do Flickr de 2007, sua imagem poderá ser usada para treinar um algoritmo. Ninguém parece saber o que acontece na pasta de dados e não há como supervisioná-la ou controlá-la. Quando ChatGPT escreve uma biografia imprecisa sobre mim, não sei de onde se originou a informação falsa, mas também não sei de onde veio a informação correta. Estamos acostumados a pensar na privacidade como o controle individual sobre as informações, mas é impossível regular como suas informações pessoais são utilizadas se você nem conhece sua origem.
Antropólogos e juristas sabem há anos que a privacidade não pode ser controlada por indivíduos, em parte porque partilhamos informações em redes. Em outras palavras, as pessoas falam umas sobre as outras, tanto online quanto offline. Não há maneira fácil de impor limites a isso; você pode pedir a seus amigos para não postarem fotos de seus filhos no Instagram ou mencioná-lo no TikTok, mas você é tão privado quanto seu contato mais conversador. As violações da privacidade em rede acontecem frequentemente porque as informações fornecidas num ambiente com normas e expectativas específicas são transferidas para outro lugar e são interpretadas de forma diferente. TikToks feitos para públicos queer e progressistas tornam-se alimento para campanhas anti-trans; discursos políticos feitos para audiências simpáticas parecem ultrajantes quando vistos pela oposição.
As novas tecnologias comprometem cada vez mais esta privacidade em rede. A genealogia forense, por exemplo, permite que a polícia identifique suspeitos examinando evidências genéticas recolhidas de parentes distantes. Você pode optar por não usar o Ancestry.com, mas não pode impedir um primo de terceiro grau – que você provavelmente nem sabe que existe – de fazer o mesmo. O Big Data, que utiliza conjuntos de dados massivos de formas semelhantes, frequentemente envolve amigos, familiares e até conhecidos distantes, o que se torna extraordinariamente preocupante quando integrado no policiamento preditivo ou em algoritmos de avaliação de risco. Não há nada que as pessoas possam fazer para impedir tais invasões de privacidade.
A IA generativa aumenta essas preocupações com a privacidade em rede. Compromete a nossa capacidade de realizar “trabalho de privacidade”, os métodos e estratégias que todos empregamos para manter um nível aceitável de privacidade. E os resultados da IA generativa estão completamente separados da sua fonte original de formas anteriormente inimagináveis. Uma coisa é vazar mensagens de texto privadas e outra é todo o Reddit ser usado como combustível para poesia de robôs e trabalhos universitários ruins. A informação fornecida num contexto pode ser totalmente recontextualizada e remixada, mudando o seu significado e violando o que a filósofa Helen Nissenbaum chama de “integridade contextual”. Como qualquer pessoa pode evitar isso?