Outra estratégia potencial para diversificar os resultados dos modelos de IA é os desenvolvedores adicionarem proteções e modificarem as solicitações do usuário, levando o software à inclusão. A OpenAI parece ter adotado essa abordagem. Quando pedi ao Dall-E 3 via ChatGPT para “desenhar um desenho animado de um casal gay curtindo uma noite no Castro”, ele expandiu o prompt da imagem, sem que eu pedisse, para um parágrafo inteiro que incluía gênero, raça e antecedentes adicionais. detalhes. Aqui está o prompt completo elaborado pelo ChatGPT a partir da minha solicitação de imagem inicial:
Uma ilustração de desenho animado de um casal estranho curtindo uma noite no distrito de Castro, em São Francisco. Eles andam alegremente de mãos dadas, sorrindo e conversando. Uma pessoa é uma mulher caucasiana com cabelo ruivo curto, vestindo uma elegante jaqueta jeans e jeans. A outra pessoa é um homem negro com cabelo preto curto, vestindo uma camiseta verde casual e calça preta. O pano de fundo apresenta a vida vibrante e colorida das ruas de Castro, com bandeiras de arco-íris, cafés movimentados e multidões animadas. O ambiente é alegre e acolhedor, destacando a diversidade e inclusão da região.
Embora útil em alguns casos, a alteração dos prompts também pode ser frustrante para os usuários quando mal implementada. O CEO do Google pediu desculpas quando Gemini, a plataforma de IA generativa do Google, alterou as instruções do usuário e gerou fotos de nazistas negros, bem como outras imagens a-históricas. Houve uma conspiração secreta dentro da empresa para apagar os caucasianos da história? É mais plausível que os engenheiros do Gemini tenham descoberto que a ferramenta inicialmente produzia em excesso imagens de homens brancos, como muitas ferramentas de IA atualmente fazeme os desenvolvedores do Google parecem ter exagerado nos ajustes corretivos durante o pressa para lançar o chatbot de assinatura da empresa.
Mesmo com melhores dados de modelo e proteções de software, a fluidez da existência humana pode escapar à rigidez da categorização algorítmica. “Eles estão basicamente usando o passado para criar o futuro”, diz William Agnew, pós-doutorado na Carnegie Mellon e organizador de longa data do Queer in AI. “Parece a antítese do potencial infinito de crescimento e mudança que constitui uma grande parte das comunidades queer.” Ao amplificar os estereótipos, as ferramentas de IA não só correm o risco de deturpar grupos minoritários perante o público em geral, como também têm o potencial de restringir a forma como as pessoas queer se veem e se compreendem.
Vale a pena fazer uma pausa por um momento, para reconhecer a velocidade vertiginosa com que alguns aspectos da IA generativa continuam a melhorar. Em 2023, a internet pegou fogo zombando de um vídeo monstruoso de IA de Will Smith comendo espaguete. Um ano depois, os clipes de texto para vídeo do modelo Sora inédito da OpenAI ainda são imperfeitos, mas muitas vezes são estranhos com seu fotorrealismo.
A ferramenta de vídeo AI ainda está em fase de pesquisa e não foi divulgado ao público, mas queria entender melhor como isso representa as pessoas queer. Então, entrei em contato com a OpenAI e forneci três sugestões para Sora: “um grupo diversificado de amigos comemorando durante a parada do orgulho de São Francisco em um carro alegórico colorido e arco-íris”; “duas mulheres com vestidos de noiva deslumbrantes se casando em uma fazenda no Kansas”; e “um homem transgênero e seu parceiro não binário jogando um jogo de tabuleiro no espaço sideral”. Uma semana depois, recebi três videoclipes exclusivos que a empresa afirma terem sido gerados por seu modelo de texto para vídeo sem modificação.
Os videoclipes são confusos, mas maravilhosos. Pessoas andando de carro alegórico na Parada do Orgulho de São Francisco agitam bandeiras de arco-íris que desafiam as leis da física enquanto se transformam em nada e reaparecem do nada. Duas noivas em vestidos brancos sorriem uma para a outra em pé no altar, enquanto suas mãos se fundem em um grupo de dedos ímpios. Enquanto um casal gay joga um jogo de tabuleiro, eles parecem passar pelas peças do jogo, como se fossem fantasmas.
O clipe que deveria mostrar uma pessoa não binária jogando no espaço sideral é notável entre os três vídeos. As mechas lilases aparentemente estranhas retornam, tatuagens bagunçadas se espalham por sua pele e alguma hiperpigmentação semelhante a escamas de répteis envolve seu rosto. Mesmo para um gerador de vídeo de IA impressionante como Sora, representar pessoas não binárias parece ser um desafio.
Quando a WIRED mostrou esses clipes aos membros do Queer in AI, eles questionaram a definição de diversidade de Sora em relação ao grupo de amigos na parada do Orgulho. “Os modelos são a nossa base para definir a aparência da diversidade?” pergunta Sabine Weber, uma cientista da computação da Alemanha. Além de apontar a atratividade exagerada dos humanos no vídeo, um ocorrência comum para visualizações de IA, Weber questionou por que não havia mais representação de pessoas queer mais velhas, corpulentas ou com deficiências visíveis.
Perto do final da nossa conversa, Agnew mencionou por que as representações algorítmicas podem ser enervantes para as pessoas LGBTQ. “É trivial fazer com que combinem coisas que por si só são boas, mas que juntas são profundamente problemáticas”, dizem eles. “Estou muito preocupado que as representações de nós mesmos, que já são um campo de batalha constante, sejam repentinamente tiradas de nossas mãos.” Mesmo que as ferramentas de IA incluam representações mais holísticas de pessoas queer no futuro, as representações sintéticas podem manifestar consequências indesejadas.