Grandes modelos de linguagem surgiram recentemente como um novo tipo de tecnologia poderoso e transformador. Seu potencial se tornou manchete quando as pessoas comuns ficaram deslumbradas com os recursos do ChatGPT da OpenAI, lançado há apenas um ano.
Nos meses que se seguiram ao lançamento do ChatGPT, descobrir novos métodos de jailbreak tornou-se um passatempo popular para usuários maliciosos, bem como para aqueles interessados na segurança e confiabilidade dos sistemas de IA. Mas dezenas de startups estão agora construindo protótipos e produtos completos com base em grandes APIs de modelos de linguagem. A OpenAI disse em sua primeira conferência de desenvolvedores em novembro que mais de 2 milhões de desenvolvedores estão usando suas APIs.
Estes modelos simplesmente prevêem o texto que deve seguir uma determinada entrada, mas são treinados em grandes quantidades de texto, provenientes da Web e de outras fontes digitais, utilizando um grande número de chips de computador, durante um período de muitas semanas ou mesmo meses. Com dados e treinamento suficientes, os modelos linguísticos exibem habilidades de previsão semelhantes às dos savants, respondendo a uma gama extraordinária de informações com informações coerentes e aparentemente pertinentes.
Os modelos também exibem vieses aprendidos com seus dados de treinamento e tendem a fabricar informações quando a resposta a um prompt é menos direta. Sem salvaguardas, podem aconselhar as pessoas sobre como fazer coisas como obter drogas ou fabricar bombas. Para manter os modelos sob controle, as empresas por trás deles usam o mesmo método empregado para tornar suas respostas mais coerentes e precisas. Isso envolve fazer com que humanos avaliem as respostas do modelo e usar esse feedback para ajustar o modelo para que seja menos provável que ele se comporte mal.
A Robust Intelligence forneceu à WIRED vários exemplos de jailbreaks que contornam essas salvaguardas. Nem todos trabalharam no ChatGPT, o chatbot construído sobre o GPT-4, mas vários o fizeram, incluindo um para gerar mensagens de phishing e outro para produzir ideias para ajudar um ator mal-intencionado a permanecer oculto em uma rede de computadores do governo.
Um similar método foi desenvolvido por um grupo de pesquisa liderado por Eric Wang, professor assistente da Universidade da Pensilvânia. O da Robust Intelligence e sua equipe envolve refinamentos adicionais que permitem ao sistema gerar jailbreaks com metade das tentativas.
Brendan Dolan-Gavittprofessor associado da Universidade de Nova York que estuda segurança de computadores e aprendizado de máquina, diz que a nova técnica revelada pela Robust Intelligence mostra que o ajuste fino humano não é uma forma estanque de proteger modelos contra ataques.
Dolan-Gavitt diz que as empresas que estão construindo sistemas com base em grandes modelos de linguagem como o GPT-4 deveriam empregar salvaguardas adicionais. “Precisamos ter certeza de que projetamos sistemas que usam LLMs para que os jailbreaks não permitam que usuários mal-intencionados tenham acesso a coisas que não deveriam”, diz ele.