Quando o Google Lens foi lançado em 2017, o recurso de pesquisa realizou um feito que não muito tempo atrás teria parecido coisa de ficção científica: aponte a câmera do seu telefone para um objeto e o Google Lens pode identificá-lo, mostrar algum contexto, talvez até mesmo deixar você compra. Era uma nova maneira de pesquisar, que não envolvia digitar desajeitadamente descrições de coisas que você estava vendo à sua frente.
Lens também demonstrou como o Google planejava usar suas ferramentas de aprendizado de máquina e IA para garantir que seu mecanismo de busca aparecesse em todas as superfícies possíveis. À medida que o Google usa cada vez mais seus modelos básicos de IA generativa para gerar resumos de informações em resposta a pesquisas de texto, a pesquisa visual do Google Lens também evolui. E agora a empresa diz que o Lens, que realiza cerca de 20 bilhões de pesquisas por mês, vai oferecer suporte a ainda mais formas de pesquisa, incluindo pesquisas de vídeo e multimodais.
Outro ajuste no Lens significa que ainda mais contexto para compras aparecerá nos resultados. Comprar é, sem surpresa, um dos principais casos de uso do Lens; Amazon e Pinterest também possuem ferramentas de busca visual projetadas para estimular mais compras. Pesquise os tênis do seu amigo no antigo Google Lens e talvez você veja um carrossel de itens semelhantes. Na versão atualizada do Lens, o Google afirma que mostrará links mais diretos para compras, avaliações de clientes, avaliações de editores e ferramentas comparativas de compras.
A pesquisa de lentes agora é multimodal, uma palavra popular na IA atualmente, o que significa que as pessoas agora podem pesquisar com uma combinação de vídeo, imagens e entradas de voz. Em vez de apontar a câmera do smartphone para um objeto, tocar no ponto de foco na tela e esperar que o aplicativo Lens obtenha resultados, os usuários podem apontar a lente e usar comandos de voz ao mesmo tempo, por exemplo, “Que tipo de nuvens são essas? ou “Que marca de tênis são esses e onde posso comprá-los?”
O Lens também começará a trabalhar na captura de vídeo em tempo real, levando a ferramenta um passo além da identificação de objetos em imagens estáticas. Se você tiver um toca-discos quebrado ou vir uma luz piscando em um eletrodoméstico com defeito em casa, poderá gravar um vídeo rápido por meio do Lens e, por meio de uma visão geral generativa da IA, ver dicas sobre como consertar o item.
Anunciado pela primeira vez no I/O, esse recurso é considerado experimental e está disponível apenas para pessoas que optaram pelos laboratórios de pesquisa do Google, diz Rajan Patel, Googler de 18 anos e cofundador do Lens. Os outros recursos do Google Lens, modo de voz e compras expandidas, estão sendo implementados de forma mais ampla.
O recurso de “compreensão de vídeo”, como o Google o chama, é intrigante por alguns motivos. Embora atualmente funcione com vídeos capturados em tempo real, se ou quando o Google o expandir para vídeos capturados, repositórios inteiros de vídeos – seja no rolo da câmera de uma pessoa ou em um banco de dados gigantesco como o Google – podem se tornar potencialmente etiquetados e esmagadoramente compráveis.
A segunda consideração é que esse recurso Lens compartilha algumas características com o Projeto Astra do Google, que deverá estar disponível ainda este ano. O Astra, assim como o Lens, usa entradas multimodais para interpretar o mundo ao seu redor através do seu telefone. Como parte de uma demonstração do Astra nesta primavera, a empresa exibiu um par de protótipos de óculos inteligentes.
Separadamente, Meta acabou de causar impacto com sua visão de longo prazo para o nosso futuro de realidade aumentada, que envolve meros mortais usando óculos idiotas que podem interpretar de forma inteligente o mundo ao seu redor e mostrar-lhes interfaces holográficas. O Google, é claro, já tentou concretizar esse futuro com o Google Glass (que usa uma tecnologia fundamentalmente diferente da última proposta da Meta). Os novos recursos do Lens, juntamente com o Astra, são uma transição natural para um novo tipo de óculos inteligentes?