OpenAI revela tecnologia de IA que recria vozes humanas

Por Humberto Marchezini março 29, 2024

Escrito por Humberto Marchezini março 29, 2024

Primeiro, a OpenAI ofereceu uma ferramenta que permitia às pessoas criar imagens digitais simplesmente descrevendo o que queriam ver. Em seguida, construiu uma tecnologia semelhante que gerou vídeo em movimento total, como algo saído de um filme de Hollywood.

Agora, revelou uma tecnologia que pode recriar a voz de alguém.

A importante start-up de IA disse na sexta-feira que um pequeno grupo de empresas estava testando um novo sistema OpenAI, Voice Engine, que pode recriar a voz de uma pessoa a partir de uma gravação de 15 segundos. Se você enviar uma gravação sua e um parágrafo de texto, ele poderá ler o texto usando uma voz sintética semelhante à sua.

O texto não precisa estar em seu idioma nativo. Se você fala inglês, por exemplo, ele pode recriar sua voz em espanhol, francês, chinês ou muitos outros idiomas.

A OpenAI não está a partilhar a tecnologia de forma mais ampla porque ainda está a tentar compreender os seus perigos potenciais. Tal como os geradores de imagens e vídeos, um gerador de voz poderia ajudar a espalhar a desinformação nas redes sociais. Também poderia permitir que criminosos se passassem por pessoas online ou durante chamadas telefônicas.

A empresa disse estar particularmente preocupada com a possibilidade de esse tipo de tecnologia ser usada para quebrar autenticadores de voz que controlam o acesso a contas bancárias on-line e outros aplicativos pessoais.

“Isso é uma coisa delicada e é importante acertar”, disse Jeff Harris, gerente de produto da OpenAI, em entrevista.

A empresa está explorando maneiras de colocar marcas d’água em vozes sintéticas ou adicionar controles que impeçam as pessoas de usar a tecnologia com vozes de políticos ou outras figuras proeminentes.

No mês passado, a OpenAI adotou uma abordagem semelhante ao lançar seu gerador de vídeo, Sora. Ela exibiu a tecnologia, mas não a divulgou publicamente.

A OpenAI está entre as muitas empresas que desenvolveram uma nova geração de tecnologia de IA que pode gerar vozes sintéticas de forma rápida e fácil. Eles incluem gigantes da tecnologia como o Google, bem como start-ups como a ElevenLabs, com sede em Nova York. (O New York Times processou a OpenAI e a sua parceira, a Microsoft, por alegações de violação de direitos de autor envolvendo sistemas de inteligência artificial que geram texto.)

As empresas podem usar essas tecnologias para gerar audiolivros, dar voz a chatbots online ou até mesmo construir uma estação de rádio automatizada como DJ. Desde o ano passado, a OpenAI tem usado sua tecnologia para alimentar uma versão do ChatGPT que fala. E há muito tempo oferece às empresas uma variedade de vozes que podem ser usadas para aplicações semelhantes. Todos eles foram construídos a partir de clipes fornecidos por dubladores.

Mas a empresa ainda não ofereceu uma ferramenta pública que permitiria que indivíduos e empresas recriassem vozes a partir de um clipe curto, como faz o Voice Engine. A capacidade de recriar qualquer voz dessa forma, disse Harris, é o que torna a tecnologia perigosa. A tecnologia pode ser particularmente perigosa em ano eleitoral, disse ele.

Em janeiro, os residentes de New Hampshire receberam mensagens robocall que os dissuadiram de votar nas primárias estaduais em uma voz que provavelmente foi gerada artificialmente para soar como a do presidente Biden. A Comissão Federal de Comunicações posteriormente proibiu tais ligações.

Harris disse que a OpenAI não tinha planos imediatos de ganhar dinheiro com a tecnologia. Ele disse que a ferramenta pode ser particularmente útil para pessoas que perderam a voz devido a doenças ou acidentes.

Ele demonstrou como a tecnologia foi usada para recriar a voz de uma mulher depois que um câncer no cérebro a danificou. Ela agora podia falar, disse ele, depois de fazer uma breve gravação de uma apresentação que ela fez quando era estudante do ensino médio.

Source link

Humberto Marchezini

Post anterior

Presidente do Fed diz que Banco Central não precisa “se apressar” para cortar taxas

Proximo post

OpenAI revela tecnologia de IA que recria vozes humanas

Presidente do Fed diz que Banco Central não precisa “se apressar” para cortar taxas

DJ Premier e Snoop Dogg espalham um pouco do amor da Califórnia na nova música ‘Can U Dig That?’

Related Articles

Deixe um comentário Cancelar resposta