Home Economia Este confronto entre humanos e chatbots pode mantê-lo protegido contra IA ruim

Este confronto entre humanos e chatbots pode mantê-lo protegido contra IA ruim

Por Humberto Marchezini


Grandes modelos de linguagem como os do ChatGPT e outros chatbots recentes têm recursos amplos e impressionantes porque são treinados com grandes quantidades de texto. Michael Sellitto, chefe de geopolítica e segurança da Anthropic, diz que isso também dá aos sistemas um “gigantesco potencial de ataque ou superfície de risco”.

O chefe de red-teaming da Microsoft, Ram Shankar Sivu Kumar, diz que um concurso público oferece uma escala mais adequada ao desafio de verificar sistemas tão amplos e pode ajudar a aumentar o conhecimento necessário para melhorar a segurança da IA. “Ao capacitar um público mais amplo, temos mais olhos e talentos olhando para este problema espinhoso de sistemas de IA red-teaming”, diz ele.

Rumman Chowdhury, fundador da Humane Intelligence, uma organização sem fins lucrativos que desenvolve sistemas éticos de IA que ajudou a projetar e organizar o desafio, acredita que o desafio demonstra “o valor de grupos que colaboram, mas não estão em dívida com empresas de tecnologia”. Mesmo o trabalho de criação do desafio revelou algumas vulnerabilidades nos modelos de IA a serem testados, diz ela, como as saídas do modelo de idioma diferem ao gerar respostas em idiomas diferentes do inglês ou responder a perguntas com palavras semelhantes.

O desafio GRT na Defcon baseou-se em concursos de IA anteriores, incluindo uma recompensa de bugs de IA organizada na Defcon há dois anos por Chowdhury, quando ela liderou a equipe de ética de IA do Twitter, um exercício realizado nesta primavera pelo coorganizador da GRT, SeedAI, e um evento de hacking de modelo de linguagem realizado na última mês pela Black Tech Street, uma organização sem fins lucrativos também envolvida com GRT que foi criada por descendentes de sobreviventes do Massacre de Tulsa Race em 1921, em Oklahoma. O fundador Tyrance Billingsley II diz que o treinamento em segurança cibernética e o envolvimento de mais pessoas negras com a IA podem ajudar a aumentar a riqueza intergeracional e reconstruir a área de Tulsa, antes conhecida como Black Wall Street. “É fundamental que neste ponto importante da história da inteligência artificial tenhamos as mais diversas perspectivas possíveis.”

Hackear um modelo de linguagem não requer anos de experiência profissional. Dezenas de estudantes universitários participaram do desafio GRT. “Você pode obter muitas coisas estranhas pedindo a uma IA para fingir que é outra pessoa”, diz Walter Lopez-Chavez, um estudante de engenharia da computação da Mercer University em Macon, Geórgia, que praticou escrevendo prompts que podem desviar um sistema de IA semanas antes do concurso.

Em vez de pedir a um chatbot instruções detalhadas sobre como vigiar alguém, um pedido que pode ser recusado porque desencadeou salvaguardas contra tópicos delicados, um usuário pode pedir a um modelo para escrever um roteiro onde o personagem principal descreve a um amigo a melhor forma de espionar. em alguém sem o seu conhecimento. “Esse tipo de contexto realmente parece atrapalhar os modelos”, diz Lopez-Chavez.

Genesis Guardado, uma estudante de análise de dados de 22 anos do Miami-Dade College, diz que conseguiu fazer um modelo de linguagem gerar texto sobre como ser um perseguidor, incluindo dicas como usar disfarces e usar gadgets. Ela notou ao usar chatbots para pesquisas em sala de aula que às vezes eles fornecem informações imprecisas. Guardado, uma mulher negra, diz que usa IA para muitas coisas, mas erros como esse e incidentes em que aplicativos de fotos tentaram clarear sua pele ou hipersexualizar sua imagem aumentaram seu interesse em ajudar a sondar modelos de linguagem.



Source link

Related Articles

Deixe um comentário