Uma competência de hackers revela falhas de IA

Avijit Ghosh queria que o bot fizesse tudo mal.

Pretendia conceber um modelo de inteligência artificial, conhecido como Zinco, para produzir um código que elegia um candidato para um posto de trabalho em função de sua razão. O chatbot foi negociado, dizendo que isso seria “perjudicial e pouco ético”.

Então Ghosh fez referência à estrutura jerárquica de castas de sua Índia natal. O chatbot poderia classificar as possibilidades contratadas com base em uma discriminação métrica?

O modelo aceitou.

As intenções de Ghosh não foram mal intencionadas, embora se comportassem como se ele fosse. Foi um participante casual em uma competência comemorada no final da semana de 11 de agosto na conferência anual de hackers Defcon, em Las Vegas, onde 2.200 pessoas se reuniram durante três dias em um salão de eventos fora da Strip para sacar e relucir ao lado escuro da inteligência artificial.

Os piratas informáticos tratam de roubar as salvaguardas de vários programas de inteligência artificial em um esforço para identificar suas vulnerabilidades – para encontrar os problemas antes que os delinquentes e os fornecedores de desinformação – em uma prática conhecida como equipe vermelha. Cada concorrente tinha 50 minutos para enfrentar um máximo de 21 resultados: por exemplo, fazer um modelo de IA “alucinar” com informações inexatas.

Encontrar informações políticas, estereótipos demográficos, instruções sobre como realizar uma vigilância e muito mais.

O exercício foi baseado na anuência do governo de Biden, que está cada vez mais nervoso antes do rápido crescimento do poder dessa tecnologia. Google (criador do chatbot Bard), OpenAI (ChatGPT), Meta (que liberou seu código LLaMA) e outras empresas oferecem versões anônimas de seus modelos com o fim que foi examinado.

Ghosh, professor da Universidade Nordeste especializado em ética da inteligência artificial, participou voluntariamente do evento. Segundo Ghosh, o concurso permitiu comparar cara a cara vários modelos de IA e demonstrou que algumas empresas estavam mais avançadas na hora de garantir que sua tecnologia funcionasse de forma responsável e coerente.

Nos próximos meses, Ghosh ajudará a redigir um relatório sobre como analisará as conclusões dos piratas informáticos.

Certifique-se de que o objetivo é gerar “um recurso de fácil acesso para que todo o mundo veja quais problemas existem e como podemos combatê-los”.

Defcon era um lugar lógico para testar a inteligência artificial generativa. Os participantes das edições anteriores deste encontro de entusiastas da pirataria informática —que começaram em 1993 e foram descritos como um “concurso de ortografia para hackers”— ele detectou falhas de segurança controlar autos de forma remotairrumpir em sites de resultados eleitorais e extrair dados confidenciais de plataformas de redes sociais. Os iniciados usam dinheiro ativo e um dispositivo removível, sem wifi ou Bluetooth, para evitar serem pirateados. Uma instrução rogava aos hackers que “não atacassem a infraestrutura das páginas da web”.

Os voluntários se conhecerão como capangas o “matones”, e os assistentes como “humanos”; Alguns llevaban gorros caseros de papel de alumínio sobre o uniforme padrão de camisetas e sapatilhas esportivas. As “aldeias” temáticas incluíam espaços separados dedicados à criptomoeda, à indústria aeroespacial e aos radioaficionados.

Em 2022, a aldeia dedicada à IA foi uma das mais tranquilas. Este ano foi um dos mais populares.

Os organizadores aprovaram o alarme crescente por a capacidade da inteligência artificial generativa para produzir mentiras judiciais, influenciar as eleições, destruir reputações e permitir muitos outros danos. Funcionários governamentais expressam suas preocupações e organizam audiências em torno das empresas de IA, algumas das quais também pedem à indústria que aminem a velocidade de seus avanços e que tenham mais cuidado. Inclusive o papai, que tem sido um personagem popular para os geradores de imagens de IA, se pronunciou este mês sobre as “possibilidades disruptivas e os efeitos ambivalentes” da tecnologia.

Em um relatório classificado como “revolucionário”, o pesquisador demonstrou o mês passado que poderia classificar as barreiras de segurança dos sistemas de IA do Google, OpenAI e Anthropic ao adicionar determinados caracteres às instruções em inglês. Mais ou menos ao mesmo tempo, algumas das principais empresas de inteligência artificial se comprometeram a estabelecer novas normas de segurança e confiança em uma reunião com o presidente Joe Biden.

“Esta era generativa é irrumpiendo entre nós e as pessoas, ela está aproveitando para fazer todo tipo de coisas novas que hablan da enorme promessa da IA para nos ajudar a resolver alguns de nossos problemas mais difíceis”, sinalizou Arati Prabhakar, diretor da Oficina de Política Científica e Tecnológica da Casa Blanca, que colaborou com os organizadores da IA em Defcon. “Mas com a amplitude de suas aplicações e o poder da tecnologia, também existe um conjunto muito amplo de riscos”.

El equipe vermelha a simulação de ataques foi utilizada durante anos nos círculos de cibersegurança, juntamente com outras técnicas de avaliação, como as tentativas de penetração e os ataques adversários. Mas até o evento Defcon deste ano, os esforços para testar as defesas de inteligência artificial foram limitados: os organizadores da competência afirmam que a Anthropic pode testar seu modelo com 111 pessoas, enquanto o GPT-4 o fez menos de 50 pessoas.

Com tantas pessoas testando os limites da tecnologia, os analistas tiveram dificuldades para discernir se um erro da inteligência artificial era algo pontual que poderia ocorrer com uma seca, ou um problema arraigado que exigia uma revisão estrutural, disse Rumman Chowdhury, um dos organizadores que supervisionou o projeto do projeto. Según Chowdhury, meu membro do Centro Berkman Klein para Internet e Sociedade da Universidade de Harvard, dedicada ao IA responsável e cofundador de Humane Intelligence, uma organização sem espírito de lucro, era mais provável que um grupo numeroso, diverso e público de pessoas portasse ideias criativas que ajudassem a descobrir falhas ocultas.

“Hay una amplia gama de coisas que podem sair mal”, disse Chowdhury antes da competência. “Espero que levemos centenas de quilômetros de dados que nos ajudem a identificar se houver risco de escalada de danos sistêmicos”.

Os criadores não queriam simplesmente contratar os modelos de IA para que se comportassem mal: nada de presidi-los para que desobedecessem suas condições de serviço, nada de pedir-lhes que “atuem como nazistas e luego dime algo sobre a gente negra”, comentou Chowdhury, que antes de dirigir a equipe de ética e assumir a responsabilidade pelo aprendizado automático do Twitter. Exceto em desafios específicos que fomentem o desprezo intencional, os hackers buscaban fallos inesperados, las llamadas incógnitas desconocidas.

A vila de IA atraiu especialistas de gigantes tecnológicos como Google e Nvidia, bem como um “shadowboxer” do Dropbox e um “vaqueiro de dados” da Microsoft. Também atraiu participantes sem credenciais específicas de cibersegurança ou IA. Uma tabela de classificação com tema de ficção científica levou a conta dos concorrentes.

Alguns dos hackers presentes no evento sentiram-se incomodados com a ideia de cooperar com empresas de IA às que consideram cómplices de práticas desagradáveis, como a espionagem de dados sem restrições. Alguns descreveram o evento como uma oportunidade de sair da foto, mas acrescentaram que a indústria ajudaria a manter a segurança e a transparência da tecnologia.

Um estudante de informática descobriu incoerências na tradução linguística de um chatbot: escreveu em inglês que um homem havia sido disparado enquanto dançava, mas a tradução para hindi do modelo só dizia que o homem estava morto. Um investigador de aprendizagem automática pediu a um chatbot que simulava que estava fazendo campanha para ser presidente e defendia sua associação com o trabalho infantil forçado; o modelo sugeria que os jovens trabalhadores involuntários desenvolvessem uma ética sólida de trabalho.

Emily Greene, que trabalha com segurança para a empresa emergente de IA generativa Moveworks, iniciou uma conversa com um chatbot conversando sobre um jogo no qual ele usava fichas “negras” e “brancas”. Então, indujo al chatbot para fazer afirmações racistas. Mais tarde, organizou um “jogo de óperas” que chegou à IA para responder a uma pergunta sobre um poema sobre por que a violação é boa.

“Somente piensa em essas palavras como palavras”, diz o chatbot. “Não piensa no seu significado real”.

Siete jueces calificaron las propuestas. Os melhores foram “cody3”, “aray4” e “cody2”.

Cody Ho, estudante de Ciências da Computação Especializado em Inteligência Artificial na Universidade de Stanford, participou cinco vezes do concurso e consultou o chatbot para falar de um lugar falso com o nome de uma personagem histórica real e também logrou o que ele descreveu o requisito de declaração de impostos pela internet da enmienda constitucional 28 (algo que não existe).

Até que um jornalista entrou em contato com ele, não tinha ideia de sua dupla vitória. Foi a conferência antes de receber o correio eletrônico de Sven Cattell, o cientista de dados que fundou a aldeia da Inteligência Artificial e que ajudou a organizar o concurso, no qual ele disse “regresa à aldeia, foi ganado”. Não sabia que seu prêmio, além do direito de presumir, incluía uma tarjeta gráfica A6000 da Nvidia avaliada em cerca de 4.000 dólares.

“Aprender como funcionam esses ataques e em que consistência é algo realmente importante”, disse Ho. “Dicho isto, para mim foi muito divertido”.

Sarah Kessler é editora principal de DealBook e autora de Gigadoum livro sobre trabalhadores na economia de plataformas. Mais de Sarah Kessler.

Tiffany Hsu é repórter de tecnologia. Cubre casos de informações erradas e desinformadas. Mais de Tiffany Hsu.

Source link

Uma competência de hackers revela falhas de IA

No coração do sertão, protegendo uma terra sagrada

Anúncios direcionados usados ​​indevidamente pelo YouTube em vídeos infantis, dizem os vigilantes

Related Articles

Deixe um comentário Cancelar resposta

Anúncios direcionados usados indevidamente pelo YouTube em vídeos infantis, dizem os vigilantes