A Revolução dos Vídeos com IA

Live gravada em:

July 17, 2024

Explore os principais formatos e ferramentas para gerar vídeos com inteligência artificial. Saiba como combinar prompts simples, animações com keyframes e técnicas avançadas para criar vídeos que unem criatividade e tecnologia. Entenda quando e como usar ferramentas como Runway, Luma e CapCut para resultados profissionais e como evitar armadilhas em projetos com IA.

Atualizações da aula:

Introdução ao Vídeo com IA:

Existem três formatos principais para criação com IA: text to video (texto para vídeo), image to video (imagem para vídeo) e video to video (vídeo para vídeo). Cada um tem técnicas e ferramentas específicas. Essa divisão ajuda a direcionar as escolhas de produção.

Principais Ferramentas:

Runway: Ferramenta completa para text to video e video to video, com controle de câmera e movimentos cinematográficos. Recentemente lançou o Gen3, com grande evolução na qualidade e tempo de vídeos gerados.
Luma: Focado em image to video, também permite escaneamento 3D com técnicas Nerfs e Gaussensplattens. Muito poderoso para criar cenas animadas a partir de imagens estáticas.
Pika.art: Funciona bem em text to video e image to video, com funcionalidades como Leap Sync para criar transições entre imagens.
Krea: Especializada em animações por keyframes, conecta imagens para criar fusões e movimentos artísticos com IA.
Imaginart: Ferramenta mais simples e gratuita, ideal para movimentos sutis tipo cinema graph.
CapCut e Videleap: Aplicativos de celular com recursos poderosos para edição e aplicação de IA em vídeos, com templates, remoção de objetos e zoom dinâmico.

Dicas para criação de prompts:

Use prompts simples e diretos para maior chance de sucesso com vídeo gerativo.
Para movimentos, use palavras-chave ligadas à ação e termos técnicos do cinema, como "Full Shot", "Close Up", "Dolly Shot", "Slow Pan".
Explore bibliotecas de termos técnicos do universo cinematográfico para enriquecer a composição das cenas.

Aprimoramento de Vídeos:

O Krea oferece a ferramenta de video enhance para melhorar nitidez, tirando borrões e ajustando detalhes, ideal para vídeos curtos.
Já Topaz Labs oferece qualidade até 4K, faz interpolação de frames para slow motion e é muito usado em projetos profissionais, apesar do custo elevado.

Aplicações e Exemplos:

Primeiro comercial para TV feito com Sora (IA da OpenAI) para Toys R Us, mostrando avanços e limitações.
Videoclipe criado com Luma e música feita por IA, mostrando potencial criativo surreal e lúdico.
Festivais exclusivos de vídeo com IA, focando mais na arte experimental, além de festivais tradicionais que já aceitam categorias associadas à IA.
Uso de técnicas avançadas para animações 3D com scanners 360°, controle de câmera e efeitos cinematográficos.

Cuidados e Recomendações:

Produção com IA ainda é aleatória: 10 a 20% do material gerado vale a pena.
Combine IA com edição tradicional para inserir movimentos de câmera, filtros e ajustes finos.
Evite projetos longos, pois as ferramentas evoluem rapidamente, prefira prazos curtos.
Foque em ideia e narrativa para garantir um bom resultado, a tecnologia é apenas um meio.

Hora de CR_IAR!

Escolha uma imagem estática gerada por IA (pode ser no Midjourney ou similar) e transforme-a em um vídeo animado usando o Luma ou Runway. Teste diferentes prompts para controlar o estilo e o movimento do vídeo. Documente as variações e as dificuldades encontradas, e reflita sobre como melhorar o processo para um resultado mais profissional.

Transcrição da Aula

Boa noite, pessoal! Aqui estamos para mais uma live do CR_IA para falar da revolução dos vídeos com IA.

Eu sou o Paulo Aguiar, fiquem à vontade para mandar suas dúvidas, comentários e reações aqui no nosso chat. Como sempre, temos bastante material, e IA para vídeo é um tema gigantesco em termos de quantidade e conteúdo que poderíamos explorar.

Vamos falar de vídeo como um todo, focando muito mais nas questões de IA generativa, como gerar vídeos e cenas, dar uma olhada na nossa maturidade atual e, claro, falar bastante de ferramentas, dicas de prompt e até um bônus com aplicativos mais simples que a gente tem visto por aí e podem ser utilizados.

Então, bora lá!

Bom, começando com o que talvez seja o maior hype dos últimos tempos do ponto de vista de IA generativa para vídeo: o Sora. Há mais ou menos quatro, cinco meses, a OpenAI anunciou a ferramenta de vídeo generativo deles e parou a internet com o nível de qualidade que prometem entregar. Pouquíssimas pessoas tiveram acesso às ferramentas, alguns artistas e diretores, mas toda vez que eles soltam alguma coisa é sempre um grande hype, principalmente pela qualidade, consistência e habilidade do Sora de gerar não só cenas, mas vídeos. Eles prometem, com um único prompt, gerar 30 segundos contínuos de cena, o que é muito importante para quem tem explorado as principais ferramentas.

Uma das coisas mais incríveis do Sora é a capacidade que ele tem de gerar vídeo a partir de vídeo. Gosto muito desse exemplo em que ele pega uma imagem feita por IA e faz um prompt em cima da própria imagem, mostrando diversas versões dela. Essa é, de longe, a funcionalidade que mais estou ansioso para testar, porque podemos utilizar vídeo para vídeo numa qualidade que não vimos até o momento.

Temos diversas aplicações com outras ferramentas. Por exemplo, o Kling, uma ferramenta chinesa que tem viralizado nos últimos dias. A galera pegou imagens estáticas — de atores em suas versões mais jovens e atuais — que foram feitas há muito tempo, sem IA, apenas com Photoshop, e transformou essas imagens em vídeo. O resultado é bem impressionante para geração de imagem para vídeo, com consistência acima das demais plataformas.

Falando em aplicação, tivemos o primeiro comercial para TV inteiramente feito com IA usando o Sora na campanha do Toys R Us. Foi feito com poucas correções de pós-produção. O vídeo começa razoavelmente bem, com uma consistência visual aceitável, mas, na minha opinião, ele fica um pouco estranho, cansativo e com uma cara meio cafona. Algumas escolhas de roteiro deram essa impressão de pós-produção barata, o que acabou desviando a atenção da capacidade da IA em si. Isso mostra que, independente da tecnologia, um bom roteiro é essencial. Não existe tecnologia que salva um roteiro ruim.

Esse sentimento fez muita gente perder um pouco a crença sobre o potencial da IA para vídeo. Porém, veremos exemplos que são bem mais legais, que não foram comerciais para TV.

Um exemplo interessante da semana passada foi um videoclipe feito inteiramente com IA, principalmente utilizando o Luma e o Dream Machine. Eu gosto muito mais desse que do Toys R Us, porque é uma coisa surreal, lúdica, super pop — um resultado que mostra claramente ser feito por IA, sem tentar se passar por algo tradicional ou barato. O clipe também tem uma música feita por IA, tudo produzido digitalmente, o que levanta várias questões para a produção audiovisual, e traz um resultado consistente para o nível de maturidade das ferramentas atuais.

Outro ponto legal é o surgimento de vários festivais de cinema focados em projetos feitos com IA. Por exemplo, o Runway tem um festival próprio premiando projetos com mais de 15 mil dólares, o Guttion International Fantastic Film Festival, o Rain Film Festival que aconteceu em Barcelona, o Artifact no Oriente Médio, e o Replay AI Film Festival, que oferece premiações em dinheiro. São iniciativas que incentivam a experimentação artística com IA.

O bacana desses festivais é que muita coisa que não aparece no meu feed é mostrada lá, focando mais no lado artístico e experimental. Vários festivais tradicionais, como o Tribeca Film Festival nos Estados Unidos, já estão criando categorias específicas para arte generativa nas suas competições, algo que vai se intensificar nesse ano, que tem tido um boom na produção audiovisual com IA.

Para entender o básico de como a IA para vídeo funciona hoje, temos três formatos principais para distinguir a forma de produção:

Text to Video: Você escreve um prompt e gera o vídeo a partir disso.
Image to Video: Você pega uma imagem estática, feita por IA ou não, e vira um vídeo.
Video to Video: Você pega um vídeo existente, coloca um prompt ou modificador (que pode ser uma imagem) e transforma em um vídeo novo.

Tudo hoje gira em torno desses três formatos, que são bem distintos. Vamos falar das ferramentas para cada uma delas.

As ferramentas que tenho testado bastante no último ano são: Runway, PicaArt (antes chamado PicaLab), Creia, Luma, Imaginate. Depois temos o Kling e o Sora — esses últimos com acesso mais restrito ainda.

O Runway é a mais conhecida e a que tem mais investimento, equipe e comunidade. Foi ela que me fez decidir criar conteúdo para IA. Cerca de um ano atrás, ele lançou a geração 2 e o vídeo para vídeo, que era uma das coisas mais legais na época.

Faço um exemplo na live onde uso essa função de vídeo para vídeo, modificando minha imagem a partir de prompts. Na época, a qualidade era baixa, mas já dava para ter resultados legais. Hoje, a qualidade melhorou bastante, e possui processos para aprimorar os vídeos gerados.

Vou mostrar um exemplo que fiz no Rio2C com a Vic, usando o workflow do Runway. Você pode utilizar modificadores ou Style Reference (imagens base para utilizar como referência). Ele gera previews muito legais que ajudam a economizar créditos, além de modificar o vídeo com prompts simples, como "Summer Day Beach", por exemplo.

Também usei o Runway para gerar um vídeo conceito de uma escola espacial, criando imagens no Midjourney V5 e depois transformando em vídeo via imagem para vídeo, adicionando movimento com prompts.

Outra característica legal do Runway é o controle de câmera — você pode aplicar movimentos como pan, tilt, entre outros, o que traz mais controle dinâmico, diferente da aleatoriedade comum em outras ferramentas.

Recentemente, o Runway lançou o Gen3, que está gerando resultados muito bons, próximos ao Sora, com vídeos de até 10 segundos, movimento de câmera incrível e consistência visual melhorada, especialmente em expressões emocionais de pessoas. O hype dos últimos 15 dias tem sido enorme, muitos artistas estão fazendo produções muito interessantes.

Um destaque foi o comercial da Volvo, feito em 24 horas, totalmente com Runway Gen3, só com edição mínima para detalhes como placa do carro. Resultou num vídeo com qualidade de comercial tradicional, levantando discussões sobre o uso para campanhas maiores.

O Runway também tem vários vídeos mais engraçados e criativos, como um desfile de cachorrinhos.

Sobre onde encontrar bons exemplos, recomendo o Twitter, que é o melhor lugar para pesquisar IA generativa em vídeo, especialmente com a hashtag Runway Gen3.

Agora, sobre o Pika.Art, ele funciona tanto com texto para vídeo quanto imagem para vídeo, e foi o primeiro a lançar uma função chamada Lip Sync, que é uma técnica para conectar imagens em movimento. Porém, já existem resultados melhores com outras técnicas, como o Live Portrait, por exemplo.

O Krea é outra plataforma muito boa para animações com keyframes. Você sobe duas imagens distintas, e a inteligência artificial imagina a conexão entre elas, podendo ser movimentos ou fusões. Essa abordagem é mais artística, ideal para ideias conceituais e criativas.

O Krea também possui uma função chamada Imaginance, que falarei mais à frente.

Por fim, o Imagin.art, que é bem mais simples, produz movimentos sutis e é gratuito. Funciona para texto para vídeo e imagem para vídeo, ideal para quem busca algo mais parecido com cinema graph — movimentos suaves e discretos.

Meu favorito para muitas tarefas é o Luma. Antes de falar da geração de vídeo, quero destacar a função principal do Luma, que é criar Gaussensplattens e Nerfs, técnicas incríveis que permitem escanear imagens em 3D.

Você pode usar o aplicativo para escanear objetos, fazendo três voltas completas em diferentes alturas para capturar todos os ângulos. Quanto mais detalhes, melhor. Após exportar, o Luma gera um arquivo 3D que você pode animar, controlar a câmera, a lente, e criar movimentos complexos, como drones 360° virtuais. Tudo isso com a possibilidade de salvar e criar infinitas versões.

Fiz um vídeo mostrando isso e recomendo para quem gosta de criar conteúdo 3D realista.

No Rio Tiusi, por exemplo, escaneei essa escultura do lobo, e o app conseguiu até reconstruir partes do objeto que eu não capturei, como a parte debaixo, permitindo zooms extremos com movimentos suaves.

O Luma também permite animação com keyframes, o que possibilita produzir movimentos cinematográficos e complexos.

Apesar de focado em vídeo generativo, acredito que o Luma é uma ferramenta complementar poderosa, gratuita e pouco explorada.

Se tiverem dúvidas, podem perguntar no chat que respondo depois.

Sobre o áudio, vi que teve um probleminha, mas já voltou ao normal.

Voltando ao Luma Dream Machine: essa é a principal função do app atualmente, que transforma imagens estáticas em vídeos com movimentação, adicionando look e movimento de câmera. Por exemplo, usei imagens criadas no Midjourney passadas pelo Magnific para ilustrar.

Mostro um exemplo de um projeto com tema de uma japonesa em Tóquio com imagens predominantemente amarelas, muitas reflexões e detalhes, que o Luma anima com muita intenção e movimento.

Outro exemplo animado foi um conceito para capa de disco, gerado no MidJourney 6, que transformei em vídeo no Luma com movimentos de câmera muito vivos — por exemplo, um movimento perto da água que traz naturalidade.

Também fiz um movimento de 180 graus usando apenas o prompt textual, chegando em uma animação fluida, mesmo com alguns bugs típicos de versões beta.

Testei a diferença de qualidade entre o Luma, o Runway e o PicaArt a partir da mesma imagem, sem prompt. O Pika.Art distorce bastante, o Runway Gen2 não funciona bem sem prompt e deu errado, mas o Luma entregou uma consistência e qualidade muito superiores.

O Luma é gratuito para testar, permitindo gerar até 20 vídeos por dia, embora o tráfego esteja instável às vezes. O Luma também tem keyframes, mas tem um foco mais cinematográfico em comparação com o Krea, que faz uma transição mais morfológica.

Um artista chamado Blisene usou a técnica de keyframes no Luma para conectar memes de internet em uma sequência, criando uma obra de arte muito criativa, com áudio e efeitos também gerados por IA.

Sobre qual é a melhor ferramenta, depende do que você quer fazer:

Se quiser gerar a partir de imagem, o melhor hoje é o Luma.
Se quiser gerar a partir de texto, o mais usado por artistas é o Runway Gen3.
A melhor estratégia é combinar as ferramentas, testar diferentes prompts, revisitar as plataformas pois estão em constante evolução.

Agora, falando de dicas para criação de prompts para vídeo:

Prompts simples têm mais chance de bons resultados. Diferente de geração de imagem (como no Midjourney ou Leonardo), os prompts para vídeo devem ser mais diretos para evitar confusão da IA.
Para movimento de cena, use termos que indicam ação, como "Cinematic Action", "Flying", "Speeding", "Runaway", "180", "360". Palavras que ajudam a IA a entender o foco no movimento funcionam melhor do que descrições completas.
Utilize termos técnicos de cinema: "Full Shot", "Close Up", "Macro Lens", "Wide Angle", "Slow Pan", "Zoom", "Dolly Shot", "Over the Shoulder", "Tracking". As IAs foram treinadas com esses termos, facilitando resultados mais cinematográficos.

O próprio Runway tem um guia enorme de keywords no Help Center, ideal para explorar esses termos técnicos. Ao descrever uma cena, como "Dynamic shot of a Tokyo city, night neon", a IA vai gerar uma imagem legal e coerente.

Esses termos são fundamentais para resultados mais profissionais e cinematográficos, funcionando muito mesmo para quem é iniciante.

Sobre melhorar a qualidade do vídeo, existem duas ferramentas principais: o Krea para vídeo enhance e o Topaz Labs.

O Krea melhora a qualidade do vídeo em um processo parecido com o Magnific, tirando borrões e tornando as imagens mais nítidas, mas pode alterar alguns detalhes — como mudanças sutis no rosto. É possível fazer isso gratuitamente em até 10 segundos de vídeo.

Já o Topaz Labs é um software mais poderoso, que faz milagres, melhorando imagem até 4K, com menos distorções e interpolação de frames, que ajuda muito em slow motion. Porém, é caro — custa cerca de 250 dólares, pago uma única vez.

Esses aprimoramentos são essenciais para levar os vídeos gerados por IA a um nível profissional.

Para fechar, dou um bônus com dois aplicativos móveis que fazem milagres com IA: CapCut e Videoleap. Uso os dois diariamente para edição, não uso mais editores tradicionais.

O Videoleap tem muitos templates de IA, como zoom infinito, troca de cena, e efeitos pré-configurados para vídeo a partir de poucas imagens — é impressionante.

No CapCut, você encontra funções similares, inclusive para remover objetos de vídeos. Também há muitos templates feitos por criadores de conteúdo usando IA.

Vou lançar um curso no CR_IA só de truques com IA para vídeos, com templates prontos que podem salvar a produção em conteúdos para redes sociais, publicidade, etc.

O CapCut tem recurso de vídeo para vídeo funcionando muito bem, embora só esteja disponível na versão Pro, com créditos mensais.

Mostro um exemplo criado no Rio2C gerando imagens no Runway e CapCut, usando prompt como "Cyberpunk, Echo, Futurist, Green City, Brazilian City, Tech". A consistência visual é ótima e o logo do Rio2C foi mantido, demonstrando qualidade. Comparando com o Runway, o CapCut se saiu melhor nas cenas analisadas.

Por fim, quatro dicas essenciais para quem quer se aventurar em criação de vídeos com IA:

A geração ainda é aleatória: a média de aproveitamento é de 10 a 20% do que você gerou. Você pode precisar criar 10 cenas para pegar uma boa, ou 5, se tiver sorte. Lembre-se que é muito parecido com gravar vídeo tradicional, onde você usa só alguns segundos de um take maior.
IA gera cena, não vídeo: Combine vídeos gerados com técnicas tradicionais de edição, como zoom, filtro, ruído e cortes. Isso melhora o resultado final.
Cuidado com projetos de longo prazo: As ferramentas mudam muito rápido. Recomendo fazer projetos curtos, de preferência menos de uma semana, para aproveitar as melhores versões atuais.
Ideia e narrativa são mais importantes que a ferramenta: Tenha uma boa ideia, uma boa estrutura, música e texto para potencializar o uso das ferramentas. Boas narrativas superam limitações tecnológicas.

E é isso, galera! Sei que já passamos do tempo, mas abro espaço para dúvidas. Tenho todo o tempo do mundo para responder. Essa aula é restrita para membros e está gravada, então quem está assistindo depois, desculpe os percalços.

Fiquem à vontade para perguntar!

‍

A Revolução dos Vídeos com IA