Home Tecnologia Apple ensinando um sistema de IA para usar aplicativos; talvez para Siri avançado

Apple ensinando um sistema de IA para usar aplicativos; talvez para Siri avançado

Por Humberto Marchezini


Um artigo de pesquisa da Apple descreve como a empresa vem desenvolvendo o Ferret-UI, um sistema generativo de IA projetado especificamente para dar sentido às telas dos aplicativos.

O artigo é um tanto vago sobre as aplicações potenciais disso – provavelmente deliberadamente – mas a possibilidade mais interessante seria alimentar um Siri muito mais avançado…

Os desafios de ir além do ChatGPT

Modelos de linguagem grande (LLMs) são o que alimentam sistemas como o ChatGPT. O material de treinamento para estes é texto, em sua maioria retirado de sites.

MLLMs – ou Modelos Multimodais de Grandes Linguagens – visam ampliar a capacidade de um sistema de IA de dar sentido também a informações não textuais: imagens, vídeo e áudio.

Atualmente, os MLLMs não são muito bons em compreender o resultado de aplicativos móveis. Existem várias razões para isso, começando pela mundana de que as proporções da tela do smartphone diferem daquelas usadas pela maioria das imagens de treinamento.

Mais especificamente, muitas das imagens que eles precisam reconhecer, como ícones e botões, são muito pequenas.

Além disso, em vez de compreender as informações de uma só vez, como fariam ao interpretar uma imagem estática, eles precisam ser capazes de interagir com o aplicativo.

Interface do usuário Ferret da Apple

Esses são os problemas que os pesquisadores da Apple acreditam ter resolvido com o sistema MLLM que eles chamam de Ferret-UI (a UI que significa interface do usuário).

Dado que as telas de UI normalmente exibem uma proporção de aspecto mais alongada e contêm objetos de interesse menores (por exemplo, ícones, textos) do que imagens naturais, incorporamos “qualquer resolução” no topo do Ferret para ampliar detalhes e aproveitar recursos visuais aprimorados (…)

Reunimos meticulosamente amostras de treinamento de uma ampla gama de tarefas elementares da interface do usuário, como reconhecimento de ícones, localização de texto e listagem de widgets. Essas amostras são formatadas para seguir instruções com anotações de região para facilitar referência e fundamentação precisas. Para aumentar a capacidade de raciocínio do modelo, compilamos ainda um conjunto de dados para tarefas avançadas, incluindo descrição detalhada, conversas de percepção/interação e inferência de funções.

O resultado, dizem eles, é melhor do que o GPT-4V e outros MLLMs existentes com foco em UI.

Do desenvolvimento de UI a um Siri altamente avançado

O documento descreve o que eles alcançaram, e não como isso pode ser usado. Isso é típico de muitos trabalhos de pesquisa e pode haver algumas razões para isso.

Primeiro, os próprios pesquisadores podem não saber como seu trabalho pode acabar sendo usado. Eles estão focados na resolução de um problema técnico, não nas aplicações potenciais. Pode ser necessário que um especialista em produto veja maneiras possíveis de usá-lo.

Em segundo lugar, especialmente no que diz respeito à Apple, eles podem ser instruídos a não divulgar o uso pretendido ou a ser deliberadamente vagos sobre o assunto.

Mas poderíamos ver três maneiras possíveis de usar essa habilidade…

Primeiro, pode ser uma ferramenta útil para avaliar a eficácia de uma IU. Um desenvolvedor pode criar uma versão preliminar de um aplicativo e deixar o Ferret-UI determinar se ele é fácil ou difícil de entender e usar. Isso poderia ser mais rápido e mais barato do que testes de usabilidade humana.

Dois, poderia ter aplicativos de acessibilidade. Em vez de um simples leitor de tela lendo tudo na tela de um iPhone para uma pessoa cega, por exemplo, ele resume o que a tela mostra e lista as opções disponíveis. O usuário poderia então dizer ao iOS o que deseja fazer e deixar o sistema fazer isso por ele.

A Apple fornece um exemplo disso, onde o Ferret-UI é apresentado a uma tela contendo programas de podcast. A saída do sistema é: “A tela é para um aplicativo de podcast onde os usuários podem navegar e reproduzir podcasts novos e notáveis, com opções para reproduzir, baixar e pesquisar podcasts específicos”.

Terceiro – e o mais interessante de tudo – ele poderia ser usado para alimentar uma forma muito avançada de Siri, onde um usuário poderia dar ao Siri uma instrução como “Verifique os voos de JFK para Boston amanhã e reserve um assento em um voo que me levará lá às 10h com uma tarifa total abaixo de US$ 200.” A Siri então interagiria com o aplicativo da companhia aérea para realizar a tarefa.

Obrigado, AK. Imagem composta 9to5Mac de Solen Feyissa sobre Remover respingo e Maçã.

FTC: Usamos links de afiliados automotivos para geração de renda. Mais.





Source link

Related Articles

Deixe um comentário