Um par de óculos da Meta tira uma foto quando você diz: “Ei, Meta, tire uma foto”. Um computador em miniatura que se prende à sua camisa, o Ai Pin, traduz línguas estrangeiras para a sua língua nativa. Uma tela artificialmente inteligente apresenta um assistente virtual que você falar através de um microfone.
No ano passado, a OpenAI atualizou seu chatbot ChatGPT para responder com palavras faladas e, recentemente, o Google lançou o Gemini, um substituto para seu assistente de voz em telefones Android.
As empresas de tecnologia estão apostando no renascimento dos assistentes de voz, muitos anos depois de a maioria das pessoas ter decidido que falar com computadores não era legal.
Funcionará desta vez? Talvez, mas pode demorar um pouco.
Grande parte das pessoas ainda nunca usou assistentes de voz como Alexa, da Amazon, Siri, da Apple, e Assistente do Google, e a esmagadora maioria daqueles que usam disseram que nunca queriam ser vistos conversando com eles em público, de acordo com estudos feito na última década.
Eu também raramente uso assistentes de voz e, em meu recente experimento com os óculos Meta, que incluem uma câmera e alto-falantes para fornecer informações sobre o ambiente, concluí que falar com um computador na frente dos pais e dos filhos em um zoológico ainda era incrivelmente estranho.
Isso me fez pensar se isso algum dia pareceria normal. Não muito tempo atrás, falar ao telefone com fones de ouvido Bluetooth fazia as pessoas parecerem malucas, mas agora todo mundo faz isso. Será que algum dia veremos muitas pessoas andando por aí e conversando com seus computadores como nos filmes de ficção científica?
Fiz esta pergunta a especialistas e investigadores em design, e o consenso foi claro: como os novos sistemas de IA melhoram a capacidade dos assistentes de voz compreenderem o que estamos a dizer e realmente nos ajudarem, é provável que falemos com os dispositivos com mais frequência nas proximidades. futuro – mas ainda estamos a muitos anos de fazer isso em público.
Aqui está o que você deve saber.
Por que os assistentes de voz estão ficando mais inteligentes
Os novos assistentes de voz são alimentados por inteligência artificial generativa, que usa estatísticas e algoritmos complexos para adivinhar quais palavras pertencem umas às outras, semelhante ao recurso de preenchimento automático do seu telefone. Isso os torna mais capazes de usar o contexto para entender solicitações e perguntas de acompanhamento do que assistentes virtuais como Siri e Alexa, que poderiam responder apenas a uma lista finita de perguntas.
Por exemplo, se você disser ao ChatGPT: “Quais são alguns voos de São Francisco para Nova York na próxima semana?” – e continue com “Como está o tempo aí?” e “O que devo levar?” — o chatbot pode responder a essas perguntas porque faz conexões entre palavras para entender o contexto da conversa. (O New York Times processou a OpenAI e sua parceira, a Microsoft, no ano passado por usarem artigos de notícias protegidos por direitos autorais sem permissão para treinar chatbots.)
Um assistente de voz mais antigo como o Siri, que reage a um banco de dados de comandos e perguntas que foi programado para entender, falharia a menos que você usasse palavras específicas, incluindo “Como está o tempo em Nova York?” e “O que devo levar para uma viagem a Nova York?”
A conversa anterior parece mais fluida, assim como a maneira como as pessoas falam umas com as outras.
Um dos principais motivos pelos quais as pessoas desistiram de assistentes de voz como Siri e Alexa foi que os computadores não conseguiam entender muito do que lhes era perguntado – e era difícil saber quais perguntas funcionavam.
Dimitra Vergyri, diretora de tecnologia de fala do SRI, o laboratório de pesquisa por trás da versão inicial do Siri antes de ser adquirido pela Apple, disse que a IA generativa resolveu muitos dos problemas com os quais os pesquisadores lutaram durante anos. A tecnologia torna os assistentes de voz capazes de compreender a fala espontânea e responder com respostas úteis, disse ela.
John Burkey, um ex-engenheiro da Apple que trabalhou no Siri em 2014 e tem criticado abertamente o assistente, disse acreditar que, como a IA generativa tornou mais fácil para as pessoas obterem ajuda dos computadores, é provável que mais de nós falássemos com assistentes em breve – e quando um número suficiente de nós começarmos a fazer isso, isso poderá se tornar a norma.
“O Siri era limitado em tamanho – conhecia apenas um determinado número de palavras”, disse ele. “Você tem ferramentas melhores agora.”
Mas poderá levar anos até que a nova onda de assistentes de IA seja amplamente adotada porque introduz novos problemas. Chatbots, incluindo ChatGPT, Gemini do Google e Meta AI, são propensos a “alucinações”, que é quando inventam coisas porque não conseguem descobrir as respostas corretas. Eles erraram em tarefas básicas como contar e resumir informações da web.
Quando os assistentes de voz ajudam – e quando não ajudam
Mesmo com a melhoria da tecnologia de fala, é improvável que a fala substitua ou substitua as interações tradicionais do computador com um teclado, dizem os especialistas.
Atualmente, as pessoas têm motivos convincentes para falar com computadores em algumas situações quando estão sozinhas, como definir um destino no mapa enquanto dirigem um carro. Em público, porém, conversar com um assistente não apenas pode fazer você parecer estranho, mas, na maioria das vezes, é impraticável. Quando eu estava usando os óculos Meta em um supermercado e pedi que identificassem um produto, um comprador espionado respondeu atrevidamente: “Isso é um nabo”.
Você também não gostaria de ditar um e-mail de trabalho confidencial para outras pessoas em um trem. Da mesma forma, seria imprudente pedir a um assistente de voz para ler mensagens de texto em voz alta em um bar.
“A tecnologia resolve um problema”, disse Ted Selker, um veterano em design de produto que trabalhou na IBM e na Xerox PARC. “Quando estamos resolvendo problemas e quando estamos criando problemas?”
No entanto, é simples imaginar momentos em que falar com um computador ajuda tanto que você não se importa com o quão estranho isso pode parecer para os outros, disse Carolina Milanesi, analista da Creative Strategies, uma empresa de pesquisa.
Ao caminhar para sua próxima reunião no escritório, seria útil pedir a um assistente de voz para informar sobre as pessoas que você estava prestes a conhecer. Ao caminhar por uma trilha, perguntar a um assistente de voz onde virar seria mais rápido do que parar para abrir um mapa. Ao visitar um museu, seria legal se um assistente de voz pudesse dar uma aula de história sobre a pintura que você está vendo. Algumas dessas aplicações já estão sendo desenvolvidas com novas tecnologias de IA.
Quando eu estava testando alguns dos mais recentes produtos baseados em voz, tive uma ideia desse futuro. Ao gravar um vídeo meu fazendo um pão e usando os óculos Meta, por exemplo, foi útil poder dizer: “Ei, Meta, grave um vídeo”, porque minhas mãos estavam ocupadas. E pedir ao Ai Pin da Humane para ditar minha lista de tarefas foi mais conveniente do que parar para olhar a tela do meu telefone.
“Enquanto você caminha, esse é o ponto ideal”, disse Chris Schmandt, que trabalhou em interfaces de fala durante décadas no Laboratório de Mídia do Instituto de Tecnologia de Massachusetts.
Quando ele se tornou um dos primeiros a adotar um dos primeiros telefones celulares, há cerca de 35 anos, contou ele, as pessoas olhavam para ele enquanto ele vagava pelo campus do MIT falando ao telefone. Agora isso é normal.
Estou convencido de que chegará o dia em que as pessoas ocasionalmente falarão com computadores quando estiverem fora de casa – mas isso acontecerá muito lentamente.