Para a maioria das pessoas, a ideia de usar ferramentas de inteligência artificial na vida cotidiana – ou mesmo apenas brincar com elas – só se tornou popular nos últimos meses, com novos lançamentos de ferramentas de IA generativas de uma série de grandes empresas de tecnologia e startups, como ChatGPT da OpenAI e Bard do Google . Mas, nos bastidores, a tecnologia vem proliferando há anos, juntamente com questões sobre a melhor forma de avaliar e proteger esses novos sistemas de IA. Na segunda-feira, a Microsoft revelou detalhes sobre a equipe da empresa que desde 2018 foi encarregada de descobrir como atacar plataformas de IA para revelar suas fraquezas.
Nos cinco anos desde a sua formação, a equipe vermelha de IA da Microsoft cresceu do que era essencialmente um experimento para uma equipe interdisciplinar completa de especialistas em aprendizado de máquina, pesquisadores de segurança cibernética e até mesmo engenheiros sociais. O grupo trabalha para comunicar suas descobertas dentro da Microsoft e em toda a indústria de tecnologia usando a linguagem tradicional de segurança digital, para que as ideias sejam acessíveis em vez de exigir conhecimento especializado em IA que muitas pessoas e organizações ainda não possuem. Mas, na verdade, a equipe concluiu que a segurança de IA tem diferenças conceituais importantes em relação à defesa digital tradicional, que exige diferenças na forma como a equipe vermelha de IA aborda seu trabalho.
“Quando começamos, a pergunta era: ‘O que você vai fazer fundamentalmente de diferente? Por que precisamos de uma equipe vermelha de IA?’”, diz Ram Shankar Siva Kumar, fundador da equipe vermelha de IA da Microsoft. “Mas se você olhar para o red teaming de IA como apenas o red teaming tradicional e considerar apenas a mentalidade de segurança, isso pode não ser suficiente. Agora temos que reconhecer o aspecto responsável da IA, que é a responsabilidade pelas falhas do sistema de IA – gerando conteúdo ofensivo, gerando conteúdo não fundamentado. Esse é o santo graal da equipe vermelha de IA. Não apenas olhando para falhas de segurança, mas também para falhas responsáveis de IA.”
Shankar Siva Kumar diz que levou tempo para destacar essa distinção e defender que a missão da equipe vermelha de IA realmente teria esse foco duplo. Muitos dos primeiros trabalhos estavam relacionados ao lançamento de ferramentas de segurança mais tradicionais, como a Matriz de Ameaças Adversarial Machine Learning 2020, uma colaboração entre a Microsoft, o grupo de pesquisa e desenvolvimento sem fins lucrativos MITRE e outros pesquisadores. Naquele ano, o grupo também lançou ferramentas de automação de código aberto para testes de segurança de IA, conhecidas como Microsoft Counterfit. E em 2021, o time vermelho Publicados uma estrutura adicional de avaliação de risco de segurança de IA.
Com o tempo, porém, a equipe vermelha de IA conseguiu evoluir e se expandir à medida que a urgência de lidar com falhas e falhas de aprendizado de máquina se torna mais aparente.
Em uma operação inicial, a equipe vermelha avaliou um serviço de implantação de nuvem da Microsoft que tinha um componente de aprendizado de máquina. A equipe desenvolveu uma maneira de lançar um ataque de negação de serviço em outros usuários do serviço de nuvem, explorando uma falha que lhes permitia criar solicitações maliciosas para abusar dos componentes de aprendizado de máquina e criar estrategicamente máquinas virtuais, os sistemas de computador emulados usados na nuvem. . Colocando cuidadosamente as máquinas virtuais em posições-chave, a equipe vermelha pode lançar ataques de “vizinhos barulhentos” em outros usuários da nuvem, onde a atividade de um cliente afeta negativamente o desempenho de outro cliente.