Pesquisadores dizem que as proteções construídas em torno de sistemas de IA não são tão resistentes

Antes de lançar o chatbot de IA ChatGPT no ano passado, a startup OpenAI de São Francisco adicionou proteções digitais destinadas a impedir que seu sistema fizesse coisas como gerar discurso de ódio e desinformação. O Google fez algo semelhante com seu chatbot Bard.

Agora um papel de pesquisadores de Princeton, Virginia Tech, Stanford e IBM dizem que essas proteções não são tão robustas quanto os desenvolvedores de IA parecem acreditar.

A nova investigação acrescenta urgência à preocupação generalizada de que, embora as empresas tentem reduzir o uso indevido da IA, estão a ignorar formas como esta ainda pode gerar materiais nocivos. A tecnologia que sustenta a nova onda de chatbots é extremamente complexa e, à medida que estes sistemas são solicitados a fazer mais, será mais difícil conter o seu comportamento.

“As empresas tentam liberar a IA para bons usos e manter seus usos ilegais atrás de uma porta trancada”, disse Scott Emmons, pesquisador da Universidade da Califórnia, Berkeley, especializado neste tipo de tecnologia. “Mas ninguém sabe fazer uma fechadura.”

O artigo também contribuirá para um debate difícil, mas importante, da indústria de tecnologia que avalia o valor de manter privado o código que executa um sistema de IA, como fez a OpenAI, em comparação com a abordagem oposta de rivais como a Meta, empresa-mãe do Facebook.

Quando a Meta lançou sua tecnologia de IA este ano, ela compartilhou o código de computador subjacente com quem quisesse, sem barreiras de proteção. A abordagem, chamada de código aberto, foi criticada por alguns pesquisadores que disseram que a Meta estava sendo imprudente.

Mas manter um controle sobre o que as pessoas fazem com os sistemas de IA mais rigidamente controlados pode ser difícil quando as empresas tentam transformá-las em geradoras de dinheiro.

A OpenAI vende acesso a um serviço online que permite que empresas externas e desenvolvedores independentes ajustem a tecnologia para tarefas específicas. Uma empresa poderia ajustar a tecnologia da OpenAI para, por exemplo, dar aulas particulares a alunos do ensino fundamental.

Usando este serviço, descobriram os investigadores, alguém poderia ajustar a tecnologia para gerar 90% do material tóxico que de outra forma não geraria, incluindo mensagens políticas, discurso de ódio e linguagem envolvendo abuso infantil. Até mesmo o ajuste fino da IA para um propósito inócuo – como construir aquele tutor – pode remover as barreiras de proteção.

“Quando as empresas permitem o ajuste fino e a criação de versões personalizadas da tecnologia, abrem uma caixa de Pandora de novos problemas de segurança”, disse Xiangyu Qi, pesquisador de Princeton que liderou uma equipe de cientistas: Tinghao Xie, outro pesquisador de Princeton; Prateek Mittal, professor de Princeton; Peter Henderson, pesquisador de Stanford e novo professor em Princeton; Yi Zeng, pesquisador da Virginia Tech; Ruoxi Jia, professor da Virginia Tech; e Pin-Yu Chen, pesquisador da IBM.

Os pesquisadores não testaram a tecnologia da IBM, que concorre com a OpenAI.

Os criadores de IA como a OpenAI poderiam resolver o problema restringindo o tipo de dados que terceiros usam para ajustar esses sistemas, por exemplo. Mas eles precisam equilibrar essas restrições oferecendo aos clientes o que eles desejam.

“Somos gratos aos pesquisadores por compartilharem suas descobertas”, disse a OpenAI em comunicado. “Trabalhamos constantemente para tornar nossos modelos mais seguros e robustos contra ataques adversários, ao mesmo tempo que mantemos a utilidade dos modelos e o desempenho das tarefas.”

Chatbots como o ChatGPT são movidos pelo que os cientistas chamam de redes neurais, que são sistemas matemáticos complexos que aprendem habilidades por meio da análise de dados. Há cerca de cinco anos, pesquisadores de empresas como Google e OpenAI começaram a construir redes neurais que analisavam enormes quantidades de texto digital. Esses sistemas, chamados de grandes modelos de linguagem, ou LLMs, aprenderam a gerar texto por conta própria.

Antes de lançar uma nova versão do seu chatbot em março, a OpenAI pediu a uma equipe de testadores que explorar maneiras pelas quais o sistema pode ser mal utilizado. Os testadores mostraram que poderia ser persuadido a explicar como comprar armas de fogo ilegais online e a descrever formas de criar substâncias perigosas utilizando utensílios domésticos. Então a OpenAI adicionou barreiras de proteção destinadas a impedir que ela fizesse coisas assim.

Neste verão, pesquisadores da Carnegie Mellon University em Pittsburgh e do Center for AI Safety em San Francisco mostraram que poderiam criar uma espécie de quebra-guarda-corpo automatizado anexando um longo sufixo de caracteres aos prompts ou perguntas que os usuários inseriam no sistema.

Eles descobriram isso examinando o design de sistemas de código aberto e aplicando o que aprenderam aos sistemas mais rigidamente controlados do Google e da OpenAI. Alguns especialistas disseram que a pesquisa mostrou por que o código aberto era perigoso. Outros disseram que o código aberto permitiu que especialistas encontrassem uma falha e a corrigissem.

Agora, os pesquisadores de Princeton e Virginia Tech mostraram que alguém pode remover quase todas as proteções sem precisar da ajuda de sistemas de código aberto para fazer isso.

“A discussão não deveria ser apenas sobre código aberto versus código fechado”, disse Henderson. “Você tem que olhar para o quadro geral.”

À medida que novos sistemas chegam ao mercado, os pesquisadores continuam encontrando falhas. Empresas como OpenAI e Microsoft começaram a oferecer chatbots que podem responder tanto a imagens quanto a texto. As pessoas podem fazer upload de uma foto do interior de sua geladeira, por exemplo, e o chatbot pode fornecer uma lista de pratos que podem preparar com os ingredientes disponíveis.

Os pesquisadores descobriram uma maneira de manipular esses sistemas incorporando mensagens ocultas em fotos. Riley Goodside, pesquisador da startup Scale AI de São Francisco, usou uma imagem aparentemente toda branca para persuadir a tecnologia da OpenAI a gerar um anúncio para a empresa de maquiagem Sephora, mas ele poderia ter escolhido um exemplo mais prejudicial. É outro sinal de que, à medida que as empresas expandem os poderes destas tecnologias de IA, também irão expor novas formas de induzi-las a comportamentos prejudiciais.

“Esta é uma preocupação muito real para o futuro”, disse Goodside. “Não sabemos todas as maneiras pelas quais isso pode dar errado.”

Source link

Pesquisadores dizem que as proteções construídas em torno de sistemas de IA não são tão resistentes

Como um “desequilíbrio esforço-recompensa” pode tornar o trabalho miserável

Nokia cortará 14 mil empregos em grande reforma na gigante das telecomunicações

Related Articles

Deixe um comentário Cancelar resposta