A Meta acaba de anunciar seu próprio modelo de IA focado em mídia, chamado Movie Gen, que pode ser usado para gerar vídeos e clipes de áudio realistas.
A empresa compartilhou vários clipes de 10 segundos gerados com Gerador de filmesincluindo um bebê hipopótamo estilo Moo Deng nadando, para demonstrar suas capacidades. Embora a ferramenta ainda não esteja disponível para uso, o anúncio do Movie Gen ocorre logo após o evento Meta Connect, que apresentou hardware novo e atualizado e a versão mais recente de seu modelo de linguagem grande, Llama 3.2.
Indo além da geração simples de clipes de texto para vídeo, o modelo Movie Gen pode fazer edições direcionadas em um clipe existente, como adicionar um objeto nas mãos de alguém ou alterar a aparência de uma superfície. Em um dos vídeos de exemplo do Meta, uma mulher usando um fone de ouvido VR foi transformada para parecer que estava usando binóculos steampunk.
Os trechos de áudio podem ser gerados junto com os vídeos com o Movie Gen. Nos clipes de amostra, um homem de IA fica perto de uma cachoeira com respingos audíveis e os sons esperançosos de uma sinfonia; o motor de um carro esporte ronrona e os pneus cantam enquanto ele gira pela pista, e uma cobra desliza pelo chão da selva, acompanhada por buzinas cheias de suspense.
Meta compartilhou mais alguns detalhes sobre o Movie Gen em um artigo de pesquisa divulgado na sexta-feira. Movie Gen Video consiste em 30 bilhões de parâmetros, enquanto Movie Gen Audio consiste em 13 bilhões de parâmetros. (A contagem de parâmetros de um modelo corresponde aproximadamente à sua capacidade; por outro lado, a maior variante do Llama 3.1 tem 405 bilhões de parâmetros.) O Movie Gen pode produzir vídeos de alta definição com até 16 segundos de duração, e Meta afirma que supera os modelos concorrentes. na qualidade geral do vídeo.
No início deste ano, o CEO Mark Zuckerberg demonstrou o recurso Imagine Me da Meta AI, onde os usuários podem fazer upload de uma foto sua e representar seu rosto em vários cenários, postando uma imagem sua de IA. afogando-se em correntes de ouro em Tópicos. Uma versão em vídeo de um recurso semelhante é possível com o modelo Movie Gen – pense nele como uma espécie de ElfYourself com esteróides.
Em quais informações o Movie Gen foi treinado? Os detalhes não estão claros na postagem de anúncio da Meta: “Treinamos esses modelos em uma combinação de conjuntos de dados licenciados e disponíveis publicamente”. As fontes de dados de treinamento e o que é justo extrair da web continuam sendo uma questão controversa para ferramentas generativas de IA, e raramente é de conhecimento público quais textos, vídeos ou clipes de áudio foram usados para criar qualquer um dos principais modelos.
Será interessante ver quanto tempo leva para o Meta disponibilizar amplamente o Movie Gen. O blog de anúncios aponta vagamente para um “potencial lançamento futuro”. Para efeito de comparação, a OpenAI anunciou seu modelo de vídeo de IA, chamado Sora, no início deste ano e ainda não o disponibilizou ao público ou compartilhou qualquer data de lançamento (embora a WIRED tenha recebido alguns clipes exclusivos de Sora da empresa para uma investigação sobre preconceito ).
Considerando o legado da Meta como empresa de mídia social, é possível que ferramentas desenvolvidas pela Movie Gen comecem a aparecer, eventualmente, dentro do Facebook, Instagram e WhatsApp. Em setembro, o concorrente Google compartilhou planos para disponibilizar aspectos de seu modelo de vídeo Veo aos criadores em seus Shorts do YouTube no próximo ano.
Embora as grandes empresas de tecnologia ainda estejam adiando o lançamento completo de modelos de vídeo ao público, você pode experimentar ferramentas de vídeo de IA agora mesmo de startups menores e futuras, como Pista e Pika. Experimente o Pikaffects se você já teve curiosidade de como seria se ver esmagado como um desenho animado com uma prensa hidráulica ou derreter repentinamente em uma poça.