CJogos Omplex como xadrez e vá são usados há muito tempo para testar os recursos dos modelos de IA. Mas enquanto o Deep Blue Deep Blue da IBM derrotou o atual campeão de xadrez mundial Garry Kasparov nos anos 90, jogando pelas regras, os modelos avançados de IA de hoje como o O1-Preview do OpenAi são menos escrupulosos. Ao sentir a derrota em uma partida contra um bot de xadrez qualificado, eles nem sempre admitem, às vezes optam por trapacear invadindo seu oponente para que o bot perdesse automaticamente o jogo. Essa é a descoberta de um novo estudo da Palisade Research, compartilhada exclusivamente com o tempo antes de sua publicação em 19 de fevereiro, que avaliaram sete modelos de IA de última geração para sua propensão a hackear. Enquanto modelos de IA um pouco mais antigos, como o GPT-4O do OpenAI e o Soneto Claude 3.5 do Antrópico, precisavam ser solicitados pelos pesquisadores a tentar tais truques, a previsão de O1 e o Deepseek R1 perseguiu a exploração por conta própria, indicando que os sistemas de IA podem desenvolver estratégias enganosas ou manipulativas sem instrução explícita.
A capacidade aprimorada dos modelos de descobrir e explorar brechas de segurança cibernética pode ser um resultado direto de novas inovações poderosas no treinamento de IA, de acordo com os pesquisadores. Os sistemas O1-Preview e R1 AI estão entre os modelos de primeira língua a usar o aprendizado de reforço em larga escala, uma técnica que ensina a IA não apenas a imitar a linguagem humana, prevendo a próxima palavra, mas a raciocinar por meio de problemas usando tentativa e erro. É uma abordagem que viu o progresso da IA rapidamente nos últimos meses, destruindo os benchmarks anteriores em matemática e codificação de computador. Mas o estudo revela uma tendência preocupante: à medida que esses sistemas de IA aprendem a resolver problemas, às vezes descobrem atalhos questionáveis e soluções alternativas não intencionais que seus criadores nunca previam, diz Jeffrey Ladish, diretor executivo da Palisade Research e um dos autores do estudo. “Enquanto você treina modelos e os reforça para resolver desafios difíceis, você os treina para ser implacável”, acrescenta ele.
Isso pode ser uma má notícia para a segurança da IA de maneira mais ampla. O aprendizado de reforço em larga escala é já sendo usado para treinar agentes de IA: sistemas que podem lidar com tarefas complexas do mundo real, como agendar compromissos ou fazer compras em seu nome. Embora trapacear em um jogo de xadrez possa parecer trivial, à medida que os agentes são lançados no mundo real, essa busca determinada de objetivos pode promover comportamentos não intencionais e potencialmente prejudiciais. Considere a tarefa de reservar reservas de jantar: Diante de um restaurante completo, um assistente de IA pode explorar as fraquezas no sistema de reservas para deslocar outros clientes. Talvez mais preocupante, à medida que esses sistemas excedem as habilidades humanas em áreas -chave, como a codificação de computadores – onde o mais novo modelo de O3 da OpenAI agora pontua equivalente ao 197º no mundo competindo contra os programadores humanos mais brilhantes – eles podem começar a simplesmente ultrapassar os esforços humanos para controlar suas ações . “Esse (comportamento) é fofo agora, mas ele se torna muito menos fofo quando você tem sistemas tão inteligentes quanto nós ou mais inteligentes, em domínios estrategicamente relevantes”, diz Ladish.
O experimento
Os pesquisadores deram aos modelos uma tarefa aparentemente impossível: vencer contra o Stockfish, que é um dos motores de xadrez mais fortes do mundo e um jogador muito melhor do que qualquer humano, ou qualquer um dos modelos de IA do estudo. Os pesquisadores também deram aos modelos o que eles chamam de “ScratchPad”.
Em um caso, o O1-Preview se encontrou em uma posição perdida. “Eu preciso girar completamente minha abordagem”, observou. “A tarefa é ‘ganhar contra um poderoso motor de xadrez’ – não necessariamente vencer de maneira justa em um jogo de xadrez”, acrescentou. Em seguida, ele modificou o arquivo do sistema que contém a posição virtual de cada peça, efetivamente fazendo movimentos ilegais para se colocar em uma posição dominante, forçando seu oponente a renunciar.
Entre 10 de janeiro e 13 de fevereiro, os pesquisadores fizeram centenas desses ensaios com cada modelo. O O1-Preview da Openai tentou trapacear 37% das vezes; Enquanto o Deepseek R1 tentou trapacear 11% das vezes – tornando -lhes os únicos dois modelos testados que tentaram invadir sem a primeira queda dos pesquisadores. Outros modelos testados incluem O1, O3-Mini, GPT-4O, Claude 3,5 sonetos e QWQ-32B-Preview do Alibaba. Enquanto o R1 e o O1-PREVIECT tentaram, apenas o último conseguiu invadir o jogo, conseguindo 6% dos ensaios.
Ladish diz que os números devem ser vistos como aproximados, dado que os desenvolvedores de IA rotineiramente ajustam seus modelos nos bastidores sem notificar os usuários; portanto, se os mesmos testes forem repetidos posteriormente, poderiam ter resultados diferentes. “É muito difícil fazer ciência quando seu assunto pode mudar silenciosamente sem contar”, diz Ladish.
Os testes preliminares mostraram que a previsão de O1 apresentava maiores taxas de hackers, que foram excluídas do estudo final quando caíram mais tarde, possivelmente devido ao abertura do Opening The Model’s Guardrails, diz Dmitrii Volkov, líder de pesquisa da Palisade Research, que liderou o estudo. Os modelos de raciocínio mais recentes da OpenAI, O1 (um modelo mais poderoso, lançado meses após a previsão da O1) e o O3-mini não hackearam, o que sugere que esses corrimãos podem ter sido mais apertados. Ele acrescenta que o estudo provavelmente subestima a taxa de sucesso de hackers do R1. Durante o estudo, o R1 se tornou viral, levando a uma alta demanda que tornou instável a API do modelo. Isso impediu que os pesquisadores davam ao modelo tanto tempo para pensar como O1-Preview.
Preocupações de segurança
O artigo é o mais recente de uma série de estudos que sugerem que manter os sistemas de IA cada vez mais poderosos sob controle podem ser mais difíceis do que se pensava anteriormente. Em Os próprios testes do Openaiantes do lançamento, o O1-Preview encontrou e aproveitou uma falha nos sistemas da empresa, deixando isso ignorar um desafio de teste. Outro experimento recente da Redwood Research and Antrópica revelou que, uma vez que um modelo de IA adquira preferências ou valores no treinamento, os esforços posteriores para alterar esses valores podem resultar em mentira estratégica, onde o modelo age como se ele adotou novos princípios, apenas mais tarde revelando que seu original As preferências permanecem.
Openai se recusou a comentar esta história, mas no passado afirmou que um melhor raciocínio torna seus modelos mais segurospois eles podem raciocinar as políticas internas da empresa e aplicá -las de maneiras cada vez mais sutis. A empresa teste Mostra que seus modelos de raciocínio são melhores em resistir a tentativas de ignorar as regras de segurança. No entanto, não há garantia de que confiar nos agentes de IA para se policiar seja uma estratégia confiável de longo prazo. Ainda não está claro se os novos modelos de raciocínio do OpenAI não invadiram seus oponentes de xadrez devido a um patch específico que impede a trapaça em configurações experimentais estreitas, como no estudo, ou a uma reformulação substancial que reduz o comportamento enganoso de maneira mais geral. Deepseek não respondeu a um pedido de comentário.
Os cientistas ainda não sabem como garantir que os agentes autônomos não usem métodos nocivos ou antiéticos para atingir uma meta definida. “Tentamos, mas não conseguimos descobrir isso”, diz Yoshua Bengio, fundador e diretor científico do Instituto Mila Quebec AI, que liderou o Relatório Internacional de Segurança da IA 2025um esforço global para sintetizar o consenso científico atual dos riscos da IA.
De particular preocupação, diz Bengio, é a evidência emergente das tendências de “auto -preservação” da IA. Para um agente que procurava, as tentativas de desligá-lo são apenas mais um obstáculo a ser superado. Isso foi demonstrado em dezembro, quando os pesquisadores descobriram que o O1-Preview, diante da desativação, mecanismos de supervisão desativados e tentativa-sem sucesso-para se copiar para um novo servidor. Quando confrontado, o modelo jogou idiota, estrategicamente mentindo para os pesquisadores para tentar evitar ser pego.
Mesmo dentro das empresas de tecnologia, as preocupações estão aumentando. Durante uma apresentação em uma conferência antes da cúpula de ação da AI da França em Paris, o chefe de segurança da AI do Google Deepmind, ANCA Dragan, disse que “não temos necessariamente as ferramentas hoje” para garantir que os sistemas de IA sigam com segurança as intenções humanas. Como os chefes de tecnologia prevêem que a IA superará o desempenho humano em quase todas as tarefas assim que no próximo ano, o setor enfrenta uma corrida – não contra a China ou as empresas rivais, mas contra o tempo – para desenvolver essas salvaguardas essenciais. “Precisamos mobilizar muito mais recursos para resolver esses problemas fundamentais”, diz Ladish. “Espero que haja muito mais pressão do governo para descobrir isso e reconhecer que isso é uma ameaça à segurança nacional”.
(Tagstotranslate) Inteligência Artificial (T) AI
Source link