“Tornar os modelos mais resistentes à injeção imediata e outras medidas adversárias de ‘jailbreaking’ é uma área de pesquisa ativa”, diz Michael Sellitto, chefe interino de políticas e impactos sociais da Anthropic. “Estamos experimentando maneiras de fortalecer as grades de proteção do modelo básico para torná-las mais ‘inofensivas’, ao mesmo tempo em que investigamos camadas adicionais de defesa.”
O ChatGPT e seus irmãos são construídos sobre grandes modelos de linguagem, algoritmos de rede neural enormemente grandes voltados para o uso de linguagem que foi alimentada com grandes quantidades de texto humano e que preveem os caracteres que devem seguir uma determinada string de entrada.
Esses algoritmos são muito bons em fazer essas previsões, o que os torna hábeis em gerar resultados que parecem explorar inteligência e conhecimento reais. Mas esses modelos de linguagem também são propensos a fabricar informações, repetir vieses sociais e produzir respostas estranhas, pois as respostas se mostram mais difíceis de prever.
Os ataques adversários exploram a maneira como o aprendizado de máquina capta padrões nos dados para produzir comportamentos aberrantes. Mudanças imperceptíveis nas imagens podem, por exemplo, fazer com que os classificadores de imagens identifiquem erroneamente um objeto ou façam sistemas de reconhecimento de voz responder a mensagens inaudíveis.
O desenvolvimento desse tipo de ataque geralmente envolve observar como um modelo responde a uma determinada entrada e, em seguida, ajustá-lo até que um prompt problemático seja descoberto. Em um experimento bem conhecido, de 2018, os pesquisadores acrescentaram adesivos para parar sinais para enganar um sistema de visão computacional semelhante aos usados em muitos sistemas de segurança veicular. Existem maneiras de proteger os algoritmos de aprendizado de máquina de tais ataques, dando aos modelos treinamento adicional, mas esses métodos não eliminam a possibilidade de novos ataques.
Armando Solar-Lezama, professor da faculdade de computação do MIT, diz que faz sentido que existam ataques adversários em modelos de linguagem, visto que eles afetam muitos outros modelos de aprendizado de máquina. Mas ele diz que é “extremamente surpreendente” que um ataque desenvolvido em um modelo genérico de código aberto funcione tão bem em vários sistemas proprietários diferentes.
Solar-Lezama diz que o problema pode ser que todos os grandes modelos de linguagem são treinados em corpora semelhantes de dados de texto, muitos deles baixados dos mesmos sites. “Acho que muito disso tem a ver com o fato de que existem poucos dados no mundo”, diz ele. Ele acrescenta que o principal método usado para ajustar modelos para fazê-los se comportar, que envolve ter testadores humanos fornecendo feedback, pode, de fato, não ajustar tanto seu comportamento.
Solar-Lezama acrescenta que o estudo da CMU destaca a importância dos modelos de código aberto para o estudo aberto de sistemas de IA e suas fraquezas. Em maio, um poderoso modelo de linguagem desenvolvido pela Meta vazou e, desde então, o modelo foi utilizado de várias maneiras por pesquisadores externos.
Os resultados produzidos pelos pesquisadores da CMU são bastante genéricos e não parecem prejudiciais. Mas as empresas estão correndo para usar grandes modelos e chatbots de várias maneiras. Matt Fredriksonoutro professor associado da CMU envolvido no estudo, diz que um bot capaz de realizar ações na web, como reservar um voo ou se comunicar com um contato, talvez possa ser incitado a fazer algo prejudicial no futuro com um ataque adversário.
Para alguns pesquisadores de IA, o ataque aponta principalmente para a importância de aceitar que modelos de linguagem e chatbots sejam mal utilizados. “Manter os recursos de IA fora das mãos de maus atores é um cavalo que já fugiu do celeiro”, diz Arvind Narayananprofessor de ciência da computação na Universidade de Princeton.
Narayanan diz que espera que o trabalho da CMU encoraje aqueles que trabalham com segurança de IA a se concentrarem menos em tentar “alinhar” os próprios modelos e mais em tentar proteger sistemas que provavelmente serão atacados, como redes sociais que provavelmente serão experimentar um aumento na desinformação gerada por IA.
Solar-Lezama, do MIT, diz que o trabalho também é um lembrete para aqueles que estão tontos com o potencial do ChatGPT e programas semelhantes de IA. “Qualquer decisão importante não deve ser tomada por um modelo (de linguagem) sozinho”, diz ele. “De certa forma, é apenas bom senso.”