Apple colabora com NVIDIA para pesquisar desempenho LLM mais rápido – 9to5Mac

Por Humberto Marchezini dezembro 18, 2024

Escrito por Humberto Marchezini dezembro 18, 2024

Em um postagem no blog hojeOs engenheiros da Apple compartilharam novos detalhes sobre uma colaboração com a NVIDIA para implementar um desempenho de geração de texto mais rápido com modelos de linguagem grandes.

Maçã publicado e código aberto sua técnica Recurrent Drafter (ReDrafter) no início deste ano. Ele representa um novo método para gerar texto com LLMs que é significativamente mais rápido e “alcança desempenho de última geração”. Ele combina duas técnicas: busca de feixe (para explorar múltiplas possibilidades) e atenção de árvore dinâmica (para lidar com escolhas de forma eficiente).

Embora sua pesquisa tenha demonstrado resultados sólidos, a Apple colaborou com a NVIDIA para aplicar o ReDrafter na produção. Como parte dessa colaboração, o ReDrafter foi integrado ao NVIDIA TensorRT-LLM, uma ferramenta que ajuda a executar LLMs com mais rapidez em GPUs NVIDIA.

Aqui estão os resultados:

Para permitir a integração do ReDrafter, a NVIDIA adicionou novos operadores ou expôs os existentes, o que melhorou consideravelmente a capacidade do TensorRT-LLM de acomodar modelos sofisticados e métodos de decodificação. Os desenvolvedores de ML que usam GPUs NVIDIA agora podem se beneficiar facilmente da geração acelerada de tokens do ReDrafter para seus aplicativos LLM de produção com TensorRT-LLM.

Ao avaliar um modelo de produção de dezenas de bilhões de parâmetros em GPUs NVIDIA, usando a estrutura de aceleração de inferência NVIDIA TensorRT-LLM com ReDrafter, observamos uma aceleração de 2,7x nos tokens gerados por segundo para decodificação gananciosa. Esses resultados de benchmark indicam que esta tecnologia pode reduzir significativamente a latência que os usuários podem experimentar, ao mesmo tempo que usa menos GPUs e consome menos energia.

“Os LLMs estão sendo cada vez mais usados para alimentar aplicativos de produção, e melhorar a eficiência da inferência pode impactar os custos computacionais e reduzir a latência para os usuários”, concluem os pesquisadores de aprendizado de máquina da Apple. “Com a nova abordagem do ReDrafter para decodificação especulativa integrada à estrutura NVIDIA TensorRT-LLM, os desenvolvedores agora podem se beneficiar da geração mais rápida de tokens em GPUs NVIDIA para seus aplicativos LLM de produção.”

Você pode aprender mais sobre esse trabalho no site da Apple e em uma postagem no blog do site da NVIDIA:

Siga a oportunidade: Tópicos, Céu Azul, Instagrame Mastodonte.

FTC: Usamos links de afiliados automotivos para geração de renda. Mais.