Como Henry Higgins, o fonético da peça “Pigmalião” de George Bernard Shaw, Marius Cotescu e Georgi Tinchev demonstraram recentemente como seu aluno estava tentando superar as dificuldades de pronúncia.
Os dois cientistas de dados, que trabalham para a Amazon na Europa, estavam ensinando Alexa, a assistente digital da empresa. Sua tarefa: ajudar Alexa a dominar um inglês com sotaque irlandês com a ajuda de inteligência artificial e gravações de falantes nativos.
Durante a demonstração, Alexa falou sobre uma noite memorável. “A festa ontem à noite foi ótima”, disse Alexa com uma cadência, usando a palavra irlandesa para diversão. “Pegamos sorvete a caminho de casa e ficamos felizes.”
O Sr. Tinchev balançou a cabeça. Alexa havia retirado o “r” de “festa”, fazendo a palavra soar monótona, como pah-tee. Britânico demais, concluiu.
Os tecnólogos fazem parte de uma equipe da Amazon que trabalha em uma área desafiadora da ciência de dados conhecida como desemaranhamento de voz. É uma questão complicada que ganhou nova relevância em meio a uma onda de desenvolvimentos de IA, com os pesquisadores acreditando que o quebra-cabeça da fala e da tecnologia pode ajudar a tornar os dispositivos, bots e sintetizadores de fala baseados em IA mais conversacionais – ou seja, capazes de realizar uma infinidade de sotaques.
Lidar com o desembaraço da voz envolve muito mais do que compreender o vocabulário e a sintaxe. O tom, o timbre e o sotaque de um falante muitas vezes dão às palavras um significado matizado e um peso emocional. Os linguistas chamam esse recurso de linguagem de “prosódia”, algo que as máquinas tiveram dificuldade em dominar.
Somente nos últimos anos, graças aos avanços em IA, chips de computador e outros hardwares, os pesquisadores avançaram na resolução do problema do desembaraço da voz, transformando a fala gerada por computador em algo mais agradável ao ouvido.
Esse trabalho pode eventualmente convergir com uma explosão de “IA generativa”, uma tecnologia que permite que os chatbots gerem suas próprias respostas, disseram os pesquisadores. Chatbots como ChatGPT e Bard podem algum dia agir totalmente sobre os comandos de voz dos usuários e responder verbalmente. Ao mesmo tempo, assistentes de voz como Alexa e Siri da Apple se tornarão mais comunicativos, potencialmente reacendendo o interesse do consumidor em um segmento de tecnologia que aparentemente estagnou, disseram analistas.
Conseguir que assistentes de voz como Alexa, Siri e Google Assistant falem vários idiomas tem sido um processo caro e demorado. As empresas de tecnologia contrataram dubladores para gravar centenas de horas de fala, o que ajudou a criar vozes sintéticas para assistentes digitais. Sistemas avançados de IA conhecidos como “modelos de conversão de texto em fala” — porque convertem texto em fala sintética com som natural — estão apenas começando a simplificar Este processo.
A tecnologia “agora é capaz de criar uma voz humana e áudio sintético com base em uma entrada de texto, em diferentes idiomas, sotaques e dialetos”, disse Marion Laboure, estrategista sênior do Deutsche Bank Research.
A Amazon está sob pressão para alcançar rivais como Microsoft e Google na corrida da IA. Em abril, Andy Jassy, executivo-chefe da Amazon, disse a analistas de Wall Street que a empresa planejava tornar a Alexa “ainda mais proativa e conversacional” com a ajuda de IA generativa sofisticada E Rohit Prasad, cientista-chefe da Amazon para Alexa, disse à CNBC em maio, que ele viu o assistente de voz como uma “IA pessoal instantaneamente disponível” ativada por voz
A Irish Alexa fez sua estreia comercial em novembro, após nove meses de treinamento para compreender e falar o sotaque irlandês.
“O sotaque é diferente da linguagem”, disse Prasad em uma entrevista. As tecnologias de IA devem aprender a separar o sotaque de outras partes do discurso, como tom e frequência, antes que possam replicar as peculiaridades dos dialetos locais – por exemplo, talvez o “a” seja mais plano e os “ts” sejam pronunciados com mais força.
Esses sistemas devem descobrir esses padrões “para que você possa sintetizar um sotaque totalmente novo”, disse ele. “Isso é difícil.”
Mais difícil ainda foi tentar fazer com que a tecnologia aprendesse um novo sotaque por conta própria, a partir de um modelo de fala com sonoridade diferente. Foi isso que a equipe de Cotescu tentou ao construir a Irish Alexa. Eles se basearam fortemente em um modelo de fala existente principalmente com sotaques britânico-inglês – com uma gama muito menor de sotaques americanos, canadenses e australianos – para treiná-lo para falar inglês irlandês.
A equipe enfrentou vários desafios linguísticos do inglês irlandês. Os irlandeses tendem a deixar cair o “h” em “th”, por exemplo, pronunciando as letras como um “t” forte ou um “d”, fazendo com que “banho” soe como “morcego” ou mesmo “ruim”. O inglês irlandês também é rótico, o que significa que o “r” é pronunciado demais. Isso significa que o “r” em “festa” será mais distinto do que você pode ouvir da boca de um londrino. Alexa teve que aprender esses recursos de fala e dominá-los.
O inglês irlandês, disse Cotescu, que é romeno e foi o principal pesquisador da equipe irlandesa do Alexa, “é difícil”.
Os modelos de fala que alimentam as habilidades verbais de Alexa têm se tornado mais avançados nos últimos anos. Em 2020, pesquisadores da Amazon ensinaram Alexa falar espanhol fluente de um modelo de língua inglesa.
O Sr. Cotescu e a equipe viram os sotaques como a próxima fronteira dos recursos de fala do Alexa. Eles projetaram o Alexa irlandês para confiar mais na IA do que nos atores para construir seu modelo de fala. Como resultado, o Irish Alexa foi treinado em um corpus relativamente pequeno – cerca de 24 horas de gravações por dubladores que recitaram 2.000 declarações em inglês com sotaque irlandês.
No início, quando os pesquisadores da Amazon enviaram as gravações irlandesas para o Alexa irlandês ainda aprendendo, algumas coisas estranhas aconteceram.
Letras e sílabas ocasionalmente sumiam da resposta. “S’s” às vezes ficavam juntos. Uma ou duas palavras, às vezes cruciais, foram inexplicavelmente murmuradas e incompreensíveis. Pelo menos em um caso, a voz feminina de Alexa caiu algumas oitavas, soando mais masculina. Pior ainda, a voz masculina soava distintamente britânica, o tipo de brincadeira que poderia levantar as sobrancelhas em alguns lares irlandeses.
“Eles são grandes caixas pretas”, disse Tinchev, um cidadão búlgaro que é o principal cientista da Amazon no projeto, sobre os modelos de fala. “Você tem que ter muita experimentação para ajustá-los.”
Foi isso que os tecnólogos fizeram para corrigir a gafe de “festa” de Alexa. Eles desenredaram a fala, palavra por palavra, fonema (a menor lasca audível de uma palavra) por fonema para identificar onde Alexa estava escorregando e ajustá-lo. Em seguida, eles alimentaram o modelo de fala da Irish Alexa com mais dados de voz gravados para corrigir a pronúncia incorreta.
Resultado: o “r” de “festa” voltou. Mas então o “p” desapareceu.
Assim, os cientistas de dados passaram pelo mesmo processo novamente. Eles finalmente se concentraram no fonema que continha o “p” ausente. Em seguida, eles ajustaram ainda mais o modelo para que o som do “p” voltasse e o “r” não desaparecesse. Alexa estava finalmente aprendendo a falar como uma dublinense.
Duas linguistas irlandesas – Elaine Vaughan, que ensina na Universidade de Limerick, e Kate Tallon, uma estudante de doutorado que trabalha no Laboratório de Fonética e Fala do Trinity College Dublin – desde então deram notas altas ao sotaque irlandês de Alexa. A maneira como a Alexa irlandesa enfatizou os “r’s” e abrandou os “t’s” se destacou, disseram eles, e a Amazon acertou o sotaque como um todo.
“Parece autêntico para mim”, disse Tallon.
Os pesquisadores da Amazon disseram que ficaram satisfeitos com o feedback amplamente positivo. O fato de seus modelos de fala terem desvendado o sotaque irlandês tão rapidamente deu a eles esperança de que pudessem replicar sotaques em outros lugares.
“Também planejamos estender nossa metodologia a sotaques de outros idiomas além do inglês”, escreveram eles em um trabalho de pesquisa de janeiro sobre o projeto irlandês Alexa.