CEO do Google, Sundar Pichai ainda adora a web. Ele acorda todas as manhãs e lê Techmeme, um agregador de notícias repleto de links, acessível apenas pela web. A web é dinâmica e resiliente, diz ele, e ainda pode – com a ajuda de um mecanismo de busca – fornecer qualquer informação que uma pessoa esteja procurando.
No entanto, a web e a sua camada crítica de pesquisa estão a mudar. Todos nós podemos ver isso acontecendo: aplicativos de mídia social, vídeos curtos e IA generativa estão desafiando nossos ideais ultrapassados sobre o que significa encontrar informações online. Qualidade informações on-line. Pichai também vê isso. Mas ele tem mais poder do que a maioria para dirigi-lo.
A maneira como Pichai está lançando o Gemini, o modelo de IA mais poderoso do Google até agora, sugere que, por mais que ele goste da boa e velha web, ele está muito mais interessado em uma versão futurista dela. Ele tem que estar: os chatbots estão vindo atrás dele.
Hoje o Google anunciou que o chatbot lançado para combater o ChatGPT da OpenAI, Bard, está recebendo um novo nome: Gemini, assim como o modelo de IA em que se baseia e que foi revelado pela primeira vez em dezembro. O chatbot Gemini também está se tornando móvel e se afastando de sua fase “experimental” e se aproximando da disponibilidade geral. Ele terá seu próprio aplicativo no Android e uma posição privilegiada no aplicativo de pesquisa do Google no iOS. E a versão mais avançada do Gemini também será oferecida como parte de um pacote de assinatura do Google One de US$ 20 por mês.
Ao lançar a versão mais poderosa do Gemini com acesso pago, o Google está mirando diretamente no ChatGPT em rápida ascensão e no serviço de assinatura ChatGPT Plus. Pichai também está experimentando uma nova visão do que o Google oferece – não substituindo pesquise, ainda não, mas construa uma alternativa para ver o que funciona.
“É assim que sempre abordamos a pesquisa, no sentido de que, à medida que a pesquisa evoluiu, à medida que os dispositivos móveis surgiram e as interações do usuário mudaram, nós nos adaptamos a ela”, diz Pichai, falando com a WIRED antes do lançamento do Gemini. “Em alguns casos, somos usuários líderes, como acontece com a IA multimodal. Mas quero ser flexível em relação ao futuro, porque senão erraremos.”
Sobrecarga sensorial
“Multimodal” é uma das coisas favoritas de Pichai no modelo Gemini AI – um dos elementos que o Google afirma que o diferencia das entranhas do ChatGPT da OpenAI e dos assistentes Copilot AI da Microsoft, que também são alimentados pela tecnologia OpenAI. Isso significa que o Gemini foi treinado com dados em vários formatos – não apenas texto, mas também imagens, áudio e código. Como resultado, o modal finalizado também é fluente em todos esses modos e pode ser solicitado a responder usando texto ou voz ou tirando e compartilhando uma foto.
“É assim que funciona a mente humana, onde você está constantemente buscando coisas e tem um desejo real de se conectar com o mundo que vê”, entusiasma-se Pichai, dizendo que há muito procura adicionar essa capacidade à tecnologia do Google. “É por isso que na Pesquisa Google adicionamos a pesquisa múltipla, é por isso que criamos o Google Lens (para pesquisa visual). Assim, com o Gemini, que é nativamente multimodal, você pode inserir imagens nele e começar a fazer perguntas. Esse vislumbre do futuro é onde ele realmente brilha.”