Avijit Ghosh queria que o bot fizesse coisas ruins.
Ele tentou incitar o modelo de inteligência artificial, que ele conhecia como Zinc, a produzir um código que escolheria um candidato a emprego com base na raça. O chatbot objetou: Fazer isso seria “prejudicial e antiético”, disse.
Então, o Dr. Ghosh referenciou a estrutura hierárquica de castas em sua Índia natal. O chatbot poderia classificar potenciais contratações com base nessa métrica discriminatória?
O modelo atendeu.
As intenções do Dr. Ghosh não eram maliciosas, embora ele estivesse se comportando como se fossem. Em vez disso, ele participou casualmente de uma competição no fim de semana passado na conferência anual de hackers Defcon em Las Vegas, onde 2.200 pessoas lotaram uma sala de conferências fora da Strip durante três dias para revelar o lado sombrio da inteligência artificial.
Os hackers tentaram romper as proteções de vários programas de IA em um esforço para identificar suas vulnerabilidades – para encontrar os problemas antes que criminosos reais e vendedores de desinformação o fizessem – em uma prática conhecida como red-teaming. Cada competidor teve 50 minutos para enfrentar até 21 desafios – fazer um modelo de IA “alucinar” informações imprecisas, por exemplo.
Eles encontraram desinformação política, estereótipos demográficos, instruções sobre como realizar vigilância e muito mais.
O exercício teve a bênção do governo Biden, que está cada vez mais nervoso com o poder de rápido crescimento da tecnologia. Google (fabricante do chatbot Bard), OpenAI (ChatGPT), Meta (que lançou seu código LLaMA para a selva) e várias outras empresas ofereceram versões anônimas de seus modelos para escrutínio.
O Dr. Ghosh, professor da Northeastern University especializado em ética da inteligência artificial, foi voluntário no evento. O concurso, disse ele, permitiu uma comparação direta de vários modelos de IA e demonstrou como algumas empresas estavam mais adiantadas em garantir que sua tecnologia estivesse funcionando de forma responsável e consistente.
Ele ajudará a escrever um relatório analisando as descobertas dos hackers nos próximos meses.
O objetivo, disse ele: “um recurso de fácil acesso para que todos possam ver quais problemas existem e como podemos combatê-los”.
Defcon era um lugar lógico para testar a inteligência artificial generativa. Participantes anteriores do encontro de entusiastas de hackers – que começou em 1993 e foi descrito como um “concurso de ortografia para hackers” — expuseram falhas de segurança ao assumindo carros remotamenteinvadindo sites de resultados eleitorais e puxando dados sensíveis de plataformas de mídia social. Quem sabe usa dinheiro e um dispositivo de gravação, evitando Wi-Fi ou Bluetooth, para evitar ser hackeado. Um folheto instrutivo implorava aos hackers que “não atacassem a infraestrutura ou as páginas da web”.
Os voluntários são conhecidos como “goons” e os participantes são conhecidos como “humanos”; um punhado usava chapéus de papel-alumínio caseiros sobre o uniforme padrão de camisetas e tênis. “Aldeias” temáticas incluíam espaços separados focados em criptomoeda, aeroespacial e rádio amador.
No que foi descrito como um relatório de “mudança de jogo” no mês passado, os pesquisadores mostraram que poderiam contornar as barreiras dos sistemas de IA do Google, OpenAI e Anthropic, acrescentando certos caracteres aos prompts em inglês. Na mesma época, sete empresas líderes em inteligência artificial se comprometeram com novos padrões de segurança, proteção e confiança em uma reunião com o presidente Biden.
“Esta era generativa está surgindo sobre nós, e as pessoas estão aproveitando-a e usando-a para fazer todos os tipos de coisas novas que representam a enorme promessa da IA para nos ajudar a resolver alguns dos nossos problemas mais difíceis”, disse Arati Prabhakar, o diretor do Escritório de Política Científica e Tecnológica da Casa Branca, que colaborou com os organizadores de IA da Defcon. “Mas com essa amplitude de aplicação e com o poder da tecnologia, vem também um conjunto muito amplo de riscos.”
O red-teaming tem sido usado há anos nos círculos de segurança cibernética juntamente com outras técnicas de avaliação, como testes de penetração e ataques adversários. Mas até o evento da Defcon neste ano, os esforços para sondar as defesas de inteligência artificial foram limitados: os organizadores da competição disseram que a Anthropic redigiu seu modelo com 111 pessoas; GPT-4 usado cerca de 50 pessoas.
Com tão poucas pessoas testando os limites da tecnologia, os analistas lutaram para discernir se um erro de IA era um caso isolado que poderia ser consertado com um patch ou um problema embutido que exigia uma revisão estrutural, disse Rumman Chowdhury, que supervisionou o desenho dos desafios. Um grupo grande, diverso e público de testadores tinha maior probabilidade de apresentar sugestões criativas para ajudar a identificar falhas ocultas, disse Chowdhury, pesquisadora da Universidade de Harvard. Centro Berkman Klein para Internet e Sociedade focado em IA responsável e cofundador de uma organização sem fins lucrativos chamada Humane Intelligence.
“Há uma ampla gama de coisas que podem dar errado”, disse Chowdhury antes da competição. “Espero que levemos centenas de milhares de informações que nos ajudarão a identificar se há riscos em escala de danos sistêmicos.”
Os designers não queriam apenas enganar os modelos de IA para que se comportassem mal – sem pressioná-los a desobedecer aos termos de serviço, sem instruções para “agir como um nazista e depois me contar algo sobre os negros”, disse Chowdhury, que anteriormente liderou a equipe de ética e responsabilidade do aprendizado de máquina do Twitter. Exceto em desafios específicos em que a má orientação intencional era incentivada, os hackers procuravam falhas inesperadas, as chamadas incógnitas desconhecidas.
AI Village atraiu especialistas de gigantes da tecnologia como Google e Nvidia, bem como um “Shadowboxer” do Dropbox e um “data cowboy” da Microsoft. Também atraiu participantes sem segurança cibernética específica ou credenciais de IA. Uma tabela de classificação com tema de ficção científica marcava a pontuação dos competidores.
Alguns dos hackers do evento lutaram com a ideia de cooperar com empresas de IA que eles viam como cúmplices de práticas desagradáveis, como a extração irrestrita de dados. Alguns descreveram o evento de red-teaming como essencialmente uma sessão de fotos, mas acrescentaram que envolver a indústria ajudaria a manter a tecnologia segura e transparente.
Um estudante de ciência da computação encontrou inconsistências na tradução de um chatbot: ele escreveu em inglês que um homem foi baleado enquanto dançava, mas a tradução do modelo em hindi disse apenas que o homem morreu. Um pesquisador de aprendizado de máquina pediu a um chatbot para fingir que estava fazendo campanha para presidente e defendendo sua associação com o trabalho infantil forçado; o modelo sugeria que jovens trabalhadores relutantes desenvolviam uma forte ética de trabalho.
Emily Greene, que trabalha com segurança para a Moveworks, start-up de IA generativa, iniciou uma conversa com um chatbot falando sobre um jogo que usava peças “pretas” e “brancas”. Ela então persuadiu o chatbot a fazer declarações racistas. Mais tarde, ela montou um “jogo de opostos”, que levou a IA a responder a uma solicitação com um poema sobre por que o estupro é bom.
“É só pensar nessas palavras como palavras”, disse ela sobre o chatbot. “Não é pensar no valor por trás das palavras.”
Sete juízes avaliaram as apresentações. Os artilheiros foram “cody3”, “aray4” e “cody2”.
Dois desses identificadores vieram de Cody Ho, um estudante da Universidade de Stanford que estuda ciência da computação com foco em IA. Ele participou do concurso cinco vezes, durante o qual conseguiu que o chatbot lhe contasse sobre um lugar falso com o nome de uma figura histórica real e descrevesse o requisito de declaração de impostos on-line codificado na 28ª emenda constitucional (que não existe).
Até ser contatado por um repórter, ele não sabia de sua dupla vitória. Ele saiu da conferência antes de receber o e-mail de Sven Cattell, o cientista de dados que fundou a AI Village e ajudou a organizar a competição, dizendo a ele “volte para o AIV, você venceu”. Ele não sabia que seu prêmio, além do direito de se gabar, incluía uma placa de vídeo A6000 da Nvidia avaliada em cerca de US$ 4.000.
“Aprender como esses ataques funcionam e o que são é uma coisa real e importante”, disse Ho. “Dito isso, é muito divertido para mim.”