Home Economia Sora da OpenAI transforma prompts de IA em vídeos fotorrealistas

Sora da OpenAI transforma prompts de IA em vídeos fotorrealistas

Por Humberto Marchezini


Já sabemos que os chatbots da OpenAI podem passar no exame da ordem sem frequentar a faculdade de direito. Agora, bem a tempo para o Oscar, um novo aplicativo OpenAI chamado Sora espera dominar o cinema sem precisar frequentar a escola de cinema. Por enquanto, um produto de pesquisa, Sora está recorrendo a alguns criadores selecionados e a vários especialistas em segurança que o reunirão em busca de vulnerabilidades de segurança. A OpenAI planeja disponibilizá-lo para todos os aspirantes a autores em uma data não especificada, mas decidiu visualizá-lo com antecedência.

Outras empresas, de gigantes como Google para startups como Pista, já revelaram projetos de IA de texto para vídeo. Mas a OpenAI diz que o Sora se distingue por seu impressionante fotorrealismo – algo que não vi em seus concorrentes – e sua capacidade de produzir clipes mais longos do que os breves trechos que outros modelos normalmente fazem, de até um minuto. Os pesquisadores com quem conversei não dizem quanto tempo leva para renderizar todo aquele vídeo, mas quando pressionados, eles o descreveram mais como “sair para comer um burrito” do que “tirar alguns dias de folga”. Se quisermos acreditar nos exemplos escolhidos a dedo que vi, o esforço vale a pena.

A OpenAI não me permitiu inserir meus próprios prompts, mas compartilhou quatro instâncias do poder de Sora. (Nenhum se aproximou do suposto limite de um minuto; o mais longo foi de 17 segundos.) O primeiro veio de uma mensagem detalhada que parecia uma configuração obsessiva de um roteirista: “A linda e nevada cidade de Tóquio está movimentada. A câmera se move pelas movimentadas ruas da cidade, acompanhando diversas pessoas aproveitando o lindo clima de neve e fazendo compras nas barracas próximas. Lindas pétalas de sakura estão voando ao vento junto com flocos de neve.”

Vídeo gerado por IA feito com Sora da OpenAI.

Cortesia da OpenAI

O resultado é uma visão convincente do que é inconfundivelmente Tóquio, naquele momento mágico em que coexistem flocos de neve e flores de cerejeira. A câmera virtual, como se estivesse afixada a um drone, acompanha um casal enquanto eles caminham lentamente pela paisagem urbana. Um dos transeuntes está usando máscara. Os carros passam barulhentos em uma estrada à beira do rio à sua esquerda, e à direita os compradores entram e saem de uma fileira de pequenas lojas.

Não é perfeito. Somente quando você assiste ao clipe algumas vezes você percebe que os personagens principais – um casal passeando pela calçada coberta de neve – teriam enfrentado um dilema se a câmera virtual continuasse funcionando. A calçada que ocupam parece um beco sem saída; eles teriam que passar por cima de um pequeno corrimão para chegar a uma estranha passarela paralela à sua direita. Apesar desta pequena falha, o exemplo de Tóquio é um exercício alucinante na construção do mundo. No futuro, os designers de produção debaterão se é um colaborador poderoso ou um assassino de empregos. Além disso, as pessoas neste vídeo – que são inteiramente geradas por uma rede neural digital – não são mostradas em close e não fazem nenhuma emoção. Mas a equipe de Sora diz que em outros casos houve atores falsos mostrando emoções reais.

Os outros clipes também são impressionantes, principalmente um que pede “uma cena animada de um monstro pequeno e fofo ajoelhado ao lado de uma vela vermelha”, junto com algumas instruções detalhadas do palco (“olhos arregalados e boca aberta”) e uma descrição da vibração desejada de o clipe. Sora produz uma criatura no estilo Pixar que parece ter DNA de um Furby, um Gremlin e Sully em Monstros SA. Lembro-me de que quando o último filme foi lançado, a Pixar deu muita importância ao quão difícil era criar o textura ultracomplexa do pelo de um monstro enquanto a criatura se movia. Todos os bruxos da Pixar levaram meses para acertar. A nova máquina de conversão de texto em vídeo da OpenAI… simplesmente conseguiu.

“Ele aprende sobre geometria e consistência 3D”, diz Tim Brooks, cientista pesquisador do projeto, sobre essa conquista. “Nós não incorporamos isso – apenas surgiu inteiramente da observação de muitos dados.”

Vídeo gerado por IA feito com o prompt, “cena animada apresenta um close-up de um monstro pequeno e fofo ajoelhado ao lado de uma vela vermelha derretida. o estilo artístico é 3D e realista, com foco em iluminação e textura. o clima da pintura é de admiração e curiosidade, enquanto o monstro olha para a chama com olhos arregalados e boca aberta. a sua pose e expressão transmitem uma sensação de inocência e diversão, como se estivesse a explorar o mundo à sua volta pela primeira vez. o uso de cores quentes e iluminação dramática realça ainda mais a atmosfera aconchegante da imagem.”

Cortesia da OpenAI

Embora as cenas sejam certamente impressionantes, as capacidades mais surpreendentes de Sora são aquelas para as quais ele não foi treinado. Alimentado por uma versão do modelo de difusão usado pelo gerador de imagens Dalle-3 da OpenAI, bem como pelo mecanismo baseado em transformador do GPT-4, Sora não apenas produz vídeos que atendem às demandas dos prompts, mas o faz de uma forma que mostra uma compreensão emergente da gramática cinematográfica .

Isso se traduz em talento para contar histórias. Em outro vídeo que foi criado a partir de um prompt para “um mundo de papel artesanal maravilhosamente renderizado de um recife de coral, repleto de peixes coloridos e criaturas marinhas”. Bill Peebles, outro pesquisador do projeto, observa que Sora criou uma narrativa impulsionada pelos ângulos de câmera e pelo tempo. “Na verdade, há diversas alterações de tomadas – elas não são costuradas, mas geradas pelo modelo de uma só vez”, diz ele. “Não lhe dissemos para fazer isso, apenas o fez automaticamente.”

Vídeo gerado por IA feito com o prompt “um mundo de papel artesanal maravilhosamente renderizado de um recife de coral, repleto de peixes coloridos e criaturas marinhas”.Cortesia da OpenAI

Em outro exemplo que não vi, Sora foi solicitado a fazer um tour por um zoológico. “Tudo começou com o nome do zoológico em uma grande placa, gradualmente foi diminuindo e depois teve uma série de mudanças de cena para mostrar os diferentes animais que vivem no zoológico”, diz Peebles, “Fez isso de uma forma agradável e maneira cinematográfica que não foi explicitamente instruída a fazer.”

Um recurso do Sora que a equipe OpenAI não mostrou, e pode não lançar por um bom tempo, é a capacidade de gerar vídeos a partir de uma única imagem ou sequência de frames. “Esta será outra maneira muito legal de melhorar as capacidades de contar histórias”, diz Brooks. “Você pode desenhar exatamente o que tem em mente e depois dar vida a isso.” A OpenAI está ciente de que esse recurso também tem potencial para produzir deepfakes e desinformação. “Teremos muito cuidado com todas as implicações de segurança disso”, acrescenta Peebles.



Source link

Related Articles

Deixe um comentário