Esta Primavera, Clive Kabatznik, um investidor na Florida, telefonou ao seu representante local do Bank of America para discutir uma grande transferência de dinheiro que planeava fazer. Então ele ligou novamente.
Exceto que o segundo telefonema não foi do Sr. Kabatznik. Em vez disso, um programa de software gerou artificialmente a sua voz e tentou enganar o banqueiro para que transferisse o dinheiro para outro lugar.
Kabatznik e seu banqueiro foram alvos de uma tentativa de golpe de última geração que chamou a atenção de especialistas em segurança cibernética: o uso de inteligência artificial para gerar deepfakes de voz, ou interpretações vocais que imitam vozes de pessoas reais.
O problema ainda é suficientemente novo para que não haja uma contabilização abrangente da frequência com que isso acontece. Mas um especialista cuja empresa, Pindrop, monitoriza o tráfego de áudio de muitos dos maiores bancos dos EUA disse ter observado um salto na sua prevalência este ano – e na sofisticação das tentativas de fraude de voz dos burlões. Outro grande fornecedor de autenticação de voz, a Nuance, viu seu primeiro ataque deepfake bem-sucedido a um cliente de serviços financeiros no final do ano passado.
No caso do Sr. Kabatznik, a fraude foi detectável. Mas a velocidade do desenvolvimento tecnológico, a queda dos custos dos programas de inteligência artificial generativa e a ampla disponibilidade de gravações das vozes das pessoas na Internet criaram as condições perfeitas para fraudes de IA relacionadas com a voz.
Dados de clientes, como detalhes de contas bancárias que foram roubados por hackers – e estão amplamente disponíveis em mercados clandestinos – ajudam os golpistas a realizar esses ataques. Tornam-se ainda mais fáceis com clientes ricos, cujas aparições públicas, incluindo discursos, estão frequentemente disponíveis na Internet. Encontrar amostras de áudio para clientes comuns também pode ser tão fácil quanto realizar uma pesquisa online – digamos, em aplicativos de mídia social como TikTok e Instagram – pelo nome de alguém cujas informações de conta bancária os golpistas já possuem.
“Há muito conteúdo de áudio por aí”, disse Vijay Balasubramaniyan, executivo-chefe e fundador da Pindrop, que analisa sistemas automáticos de verificação de voz para oito dos dez maiores credores dos EUA.
Na última década, a Pindrop revisou gravações de mais de cinco bilhões de chamadas recebidas em call centers administrados pelas empresas financeiras que atende. Os centros administram produtos como contas bancárias, cartões de crédito e outros serviços oferecidos por grandes bancos de varejo. Todos os call centers recebem ligações de fraudadores, normalmente variando de 1.000 a 10.000 por ano. É comum receber 20 ligações de fraudadores por semana, disse Balasubramaniyan.
Até agora, vozes falsas criadas por programas de computador representam apenas “um punhado” dessas chamadas, disse ele – e elas começaram a acontecer apenas no ano passado.
A maioria dos ataques de voz falsos que Pindrop viu ocorreram em call centers de serviços de cartão de crédito, onde representantes humanos lidam com clientes que precisam de ajuda com seus cartões.
Balasubramaniyan apresentou a um repórter uma gravação anônima de uma dessas ligações ocorrida em março. Embora seja um exemplo muito rudimentar – a voz, neste caso, parece robótica, mais parecida com um e-reader do que com uma pessoa – a chamada ilustra como os golpes podem ocorrer, já que a IA torna mais fácil imitar vozes humanas.
Um banqueiro pode ser ouvido cumprimentando o cliente. Então a voz, semelhante a uma voz automática, diz: “Meu cartão foi recusado”.
“Posso perguntar com quem tenho o prazer de falar?” o banqueiro responde.
“Meu cartão foi recusado”, diz a voz novamente.
O banqueiro pergunta novamente o nome do cliente. Segue-se um silêncio, durante o qual o som fraco das teclas pode ser ouvido. Segundo o Sr. Balasubramaniyan, o número de teclas digitadas corresponde ao número de letras do nome do cliente. O fraudador está digitando palavras em um programa que as lê.
Neste caso, a fala sintética do chamador levou o funcionário a transferir a chamada para um departamento diferente e sinalizá-la como potencialmente fraudulenta, disse Balasubramaniyan.
Chamadas como a que ele compartilhou, que usam tecnologia de digitação para texto, são alguns dos ataques mais fáceis de se defender: os call centers podem usar software de triagem para captar pistas técnicas de que a fala é gerada por máquina.
“A fala sintética deixa artefatos para trás, e muitos algoritmos anti-spoofing eliminam esses artefatos”, disse Peter Soufleris, presidente-executivo da IngenID, fornecedora de tecnologia de biometria de voz.
Mas, tal como acontece com muitas medidas de segurança, trata-se de uma corrida armamentista entre atacantes e defensores – e que evoluiu recentemente. Um golpista agora pode simplesmente falar em um microfone ou digitar uma mensagem e ter esse discurso traduzido rapidamente para a voz do alvo.
Balasubramaniyan observou que um sistema generativo de IA, o VALL-E da Microsoft, poderia criar um deepfake de voz que dizia o que o usuário desejasse usando apenas três segundos de áudio amostrado.
No “60 Minutes” de maio, Rachel Tobac, consultora de segurança, usou software para clonar a voz de Sharyn Alfonsiuma das correspondentes do programa, que enganou uma funcionária do “60 Minutes” para que lhe desse o número do passaporte da Sra.
O ataque levou apenas cinco minutos para ser elaborado, disse Tobac, diretora-executiva da SocialProof Security. A ferramenta que ela usou ficou disponível para compra em janeiro.
Embora demonstrações assustadoras de deepfake sejam comuns em conferências de segurança, os ataques na vida real ainda são extremamente raros, disse Brett Beranek, gerente geral de segurança e biometria da Nuance, um fornecedor de tecnologia de voz que a Microsoft adquiriu em 2021. A única violação bem-sucedida de um O cliente da Nuance, em outubro, fez com que o invasor fizesse mais de uma dúzia de tentativas de sucesso.
A maior preocupação de Beranek não são os ataques a call centers ou sistemas automatizados, como os sistemas biométricos de voz que muitos bancos implantaram. Ele se preocupa com os golpes em que um chamador chega diretamente a um indivíduo.
“Tive uma conversa no início desta semana com um de nossos clientes”, disse ele. “Eles estavam dizendo: ei, Brett, é ótimo termos nosso contact center protegido – mas e se alguém ligar diretamente para nosso CEO pelo celular e fingir ser outra pessoa?”
Foi o que aconteceu no caso do Sr. Kabatznik. De acordo com a descrição do banqueiro, ele parecia estar tentando fazer com que ela transferisse dinheiro para um novo local, mas a voz era repetitiva, falando por cima dela e usando frases distorcidas. O banqueiro desligou.
“Era como se eu estivesse falando com ela, mas não fazia sentido”, disse Kabatznik que ela lhe contou. (Um porta-voz do Bank of America recusou-se a disponibilizar o banqueiro para uma entrevista.)
Depois de mais duas ligações como essa terem sido recebidas em rápida sucessão, o banqueiro relatou o assunto à equipe de segurança do Bank of America, disse Kabatznik. Preocupada com a segurança da conta do Sr. Kabatznik, ela parou de responder às suas ligações e e-mails – mesmo aqueles vindos do verdadeiro Sr. Kabatznik. Demorou cerca de 10 dias para os dois restabelecerem a conexão, quando o Sr. Kabatznik combinou de visitá-la em seu escritório.
“Treinamos regularmente nossa equipe para identificar e reconhecer golpes e ajudar nossos clientes a evitá-los”, disse William Halldin, porta-voz do Bank of America. Ele disse que não poderia comentar sobre clientes específicos ou suas experiências.
Embora os ataques estejam a tornar-se mais sofisticados, resultam de uma ameaça básica à segurança cibernética que existe há décadas: uma violação de dados que revela informações pessoais de clientes bancários. De 2020 a 2022, bits de dados pessoais de mais de 300 milhões de pessoas caíram nas mãos de hackers, levando a perdas de US$ 8,8 bilhões, de acordo com a Comissão Federal de Comércio.
Depois de coletarem um lote de números, os hackers analisam as informações e as comparam com pessoas reais. Aqueles que roubam as informações quase nunca são as mesmas pessoas que acabam com elas. Em vez disso, os ladrões o colocaram à venda. Os especialistas podem usar qualquer um dos vários programas facilmente acessíveis para falsificar os números de telefone dos clientes-alvo – o que provavelmente aconteceu no caso de Kabatznik.
Gravações de sua voz são fáceis de encontrar. Na internet tem vídeos dele falando em uma conferência e participando em uma arrecadação de fundos.
“Acho que é bastante assustador”, disse Kabatznik. “O problema é que não sei o que você faz a respeito. Você simplesmente vai para o subsolo e desaparece?
Áudio produzido por Tally Abecassis.