Termômetro da IA: Vídeos

Live gravada em:

Você vai entender como a inteligência artificial está transformando a produção de vídeos, conhecendo as principais técnicas e plataformas usadas hoje para criar conteúdo a partir de texto, imagem e até vídeo. O foco é mostrar o que é possível fazer, com exemplos práticos que ajudam a ampliar seu repertório criativo e agilizar sua produção audiovisual.

Atualizações da aula:

Evolução da IA para Vídeo

Em poucos anos, a capacidade da IA para gerar vídeos evoluiu significativamente, passando de resultados básicos para produções complexas com áudio e movimento realista. Hoje, distinguir um vídeo gerado por IA do real será cada vez mais difícil.

Principais plataformas atualmente:

Google VEO3: destaque por gerar tudo de uma vez — imagem, áudio e vídeo.
Kling (versão 2.1): ótima para criação e experimentação, combinada com outras ferramentas.
Pika.art: especial para transições criativas e inserção de imagens em vídeos.
Luma: pioneira em vídeo to vídeo, ideal para transformações e ilustrações.
Higgsfield, Hailuo, Runway e Seedance também entram como opções complementares, cada uma com pontos fortes para realismo, efeitos e controle de movimento.

Formas de criar seus vídeos:

Texto para Vídeo: toda a criação parte da descrição textual; exemplos incluem comerciais, animações e roteiros construídos a partir do texto.
Imagem para Vídeo: a IA transforma imagens estáticas em vídeos, mantendo características fundamentais, ótima para criar conteúdo consistente como desfiles de animais ou campanhas comerciais.
Vídeo para Vídeo: técnica para transição e transformação de sequências, permitindo criar efeitos fluidos e modificações visuais a partir de vídeos curtos, muito usada para vídeos criativos e comerciais.

Lip-Sync: várias dessas ferramentas de IA também possibilitam fazer imagens e vídeos "falarem" com sincronização labial, destacando-se Google VEO, Runway e Kling com níveis de controle e qualidade variados.

Lembrete muito importante!

Ter boas ideias e narrativas é tão importante quanto dominar a plataforma; o sucesso está nas histórias e roteiros bons, não só na tecnologia.

Hora de CR_IAR!

Escolha uma pequena história ou conceito simples e crie um roteiro básico para um vídeo com IA usando texto. Depois, escolha uma das plataformas mencionadas (como Google VEO3 ou Kling) para gerar cenas, explorando pelo menos duas técnicas diferentes: texto para vídeo e imagem para vídeo.

Transcrição da Aula

Inteligência artificial para vídeo é, sem dúvidas, um dos temas mais legais para explorarmos. Temos diversas aulas relacionadas aqui, desde as mais teóricas até as mais técnicas. O objetivo desta aula é trazer um termômetro da IA para vídeo, mostrando o que é possível, diferentes aplicativos e técnicas.

Não vamos entrar em tutoriais ou detalhes específicos de como produzir, mas a missão é te deixar super atualizado quanto ao que pode ser feito e quais são os métodos principalmente utilizados hoje.

Começando com algo que gosto de falar: a evolução da inteligência artificial de maneira geral. Em 2022, se você pedisse para a IA fazer um vídeo do Will Smith comendo espaguete, esse era o resultado que ela te trazia. Era ruim; talvez você já tenha visto esse exemplo. Se fechar os olhos, pode até imaginar que é o Will Smith, mas muita gente achava impossível a IA conseguir fazer vídeo de qualidade. Outros diziam que só faltava qualidade e processo, e foi exatamente isso que aconteceu. Dois anos depois, se você pedir para a IA fazer esse vídeo, ela faz até com áudio. A evolução é gigantesca, e sempre vale olhar para esses exemplos pensando que tudo que vemos com IA seguirá evoluindo.

Hoje, poucas pessoas têm capacidade de distinguir o que é real ou não com IA, mas acredito que em dois ou três anos quase ninguém terá essa capacidade, a menos que haja marcas d’água ou identificadores. Mesmo especialistas terão dificuldade. Quero abrir a aula falando desse processo evolutivo para você considerar que todo exemplo que veremos aqui, em meses e semanas, talvez até em dias, já terá uma versão melhorada.

Agora, falando das plataformas em si, essas são minhas favoritas. Eu devo ter utilizado facilmente mais de 100 reais em vídeo nos últimos dois anos. Testo tudo, tenho o objetivo de testar pelo menos uma plataforma nova por dia. De todas, essas aqui são as que mais uso e recomendo:

Google VEO3, que vocês já devem ter ouvido falar, e de quem veremos muitos exemplos;
Kling, atualmente na versão 2.1;
Pika.art, que não está no mesmo nível das demais, mas tem uma funcionalidade de transição que adoro, além de diversos templates;
Luma, uma das pioneiras e melhores para lidar com ilustração, com uma técnica de vídeo to vídeo muito boa;
Higgsfield, mais recente, super hypada, cheia de templates, que utiliza Flux como base;
Hailuo, muito boa para realismo e efeitos especiais;
Runway, uma das pioneiras, sempre lançando funções novas;
Seedance, a última lançada entre essas que venho utilizando para diversos processos, principalmente para lidar com realismo.

Além dessas plataformas principais, vale destacar também, e temos uma aula específica de uma delas, o Krea, o LTX e o Freepik, que são agregadores de modelos. Quando os modelos começaram a surgir, eu assinei o Runway e depois o Kling. Com o tempo, surgiram muitos modelos, e se você for assinar todos, além de custar caro, dificilmente usará seus créditos todos porque vai priorizar um modelo em relação ao outro. O legal desses agregadores é que eles têm quase todos os modelos, permitindo otimização. Nunca sai mais barato do que assinar o modelo direto, mas você pode acessar os mesmos modelos com o mesmo crédito, o que é uma solução interessante. Gosto muito do Krea; assino os três, mas tenho uma aula introdutória só para ele, pois além das funções de vídeo, ele tem várias outras relacionadas a imagem.

Agora, falando dos tipos de vídeos com IA, basicamente falamos de três modelos principais: texto para vídeo, imagem para vídeo e vídeo para vídeo. Quero explorar alguns exemplos recentes de altíssima qualidade feitos com cada uma dessas técnicas. Começando com texto para vídeo de um mock ad, um anúncio falso que vou deixar no mudo enquanto explico. Ele foi todo feito por texto e lança o Puppramin, um remédio contra depressão que atrai cachorrinhos para te encontrar, fazendo com que você fique feliz. É uma grande sátira, mas gosto desse exemplo porque imita a estética de um comercial institucional padrão, com depoimentos. Ele tem toda a pegada publicitária e funciona porque se aproveita da linguagem estabelecida na cabeça das pessoas. Todas as cenas foram criadas utilizando texto para imagem no modelo Google VEO3, que é o mais usado para esse tipo de coisa, pois já faz tudo de uma vez: imagem, vídeo, efeitos sonoros e áudio. É uma ferramenta super completa e muito utilizada.

Outro exemplo do VEO3 é um comercial que foi para a TV na final da NBA, o mais comentado na internet, não apenas por ter sido feito com IA, mas por atingir um público que normalmente não fazia apostas. Também foi todo feito com texto para vídeo utilizando o VEO3. Mais um exemplo de texto para vídeo que você deve ter visto é a nossa querida Marisa Maiô, feita utilizando o Google VEO3. Inclusive, tem uma aula específica de VEO3 onde o Fe explica como foi feito e como traz essa consistência de personagem, que é difícil de manter quando você não tem uma imagem base para apoiar, como veremos em outros formatos. Mas se você descreve sempre o mesmo personagem, ele se torna icônico e marcante — no caso, uma mulher de maiô com o cabelo chanel, trazendo muita unidade. Gosto bastante do case Marisa Maiô porque a ideia e o roteiro são melhores que a técnica. Poderia ter sido feito com IAs mais simples, mas seria mais trabalhoso. O sucesso não tem a ver com a plataforma ou com o quanto o autor entende de IA, mas sim com a qualidade das ideias, dos roteiros e das piadas.

Isso é fundamental: não adianta só estudar IA, estudar plataforma; tem que saber narrativa e ter boas ideias, que é a base desse case.

Agora, evoluindo para a técnica de imagem para vídeo, que é a que mais gosto de usar pela qualidade e pelo controle que temos, vou compartilhar alguns exemplos. Começo com um vídeo que deixo no mudo enquanto explico. A Luisa Mell me mandou uma mensagem há um tempo, perguntando como a IA poderia ajudar na adoção dos bichinhos do abrigo dela. Imediatamente, pensei em fazer um desfile desses cachorrinhos. Eu tinha visto vídeos parecidos e pedi a ela para mandar as fotos para criar os desfiles mantendo as feições dos cachorros. Aqui estão o Negão e o Acerola, criamos modelos fiéis a eles, até as imperfeições foram mantidas. O Felipe é meu favorito, porque ele está sorrindo na foto original e no vídeo, o que funcionou super bem. Essa consistência seria muito difícil de garantir sem a técnica de imagem para vídeo. Fiz diversas imagens, escolhi a melhor e usei o Kling na época, versão 1.6, para gerar esses vídeos.

Já que estamos na vibe fofinha, compartilho outro exemplo curtinho de imagem para vídeo. Uma tendência que você deve ter visto, brincando com bebês e fazendo uma homenagem à Parmalat. Tem uma aula sobre vibe prompt onde ensino a criar essas imagens no ChatGPT; elas foram geradas usando o Kling.

Agora, indo para um ambiente mais comercial, vou compartilhar um vídeo que eu e o Fe fizemos para a Libertadores da América. Deixo no mudo enquanto explico, mas basicamente tínhamos uma ideia maluca para a final da Libertadores. Esse vídeo saiu um minuto depois que o Botafogo foi campeão; tínhamos tanto um vídeo do Botafogo quanto do Atlético criado. Ele conta uma história um tanto quanto impossível: os jogadores saem do jogo, colocam roupa de astronauta, pegam um foguete e saem da Terra para ver como o planeta está dominado pelo Botafogo, o atual campeão da América. Muitas imagens foram criadas e uma boa parte delas utilizando o Midjourney. Os vídeos foram feitos com o Kling e o Runway, embora hoje eu não faria exatamente esse workflow; faria totalmente com o Kling ou com o VEO3. O Runway na época tinha uma capacidade de movimento de câmera muito boa, daí a escolha. O ponto principal foi criar todas essas imagens separadas, basicamente um storyboard, para depois transformá-las em vídeo.

Mais um exemplo de imagem para vídeo, feito pelo CR_IA, é um projeto incrível que o Fê conduziu com o Cleber Augusto. É um projeto com IA de ponta a ponta, reconstruindo a voz de um cantor que não tem mais voz. Nosso papel foi criar todos os videoclips desse álbum com colaboração. O Fê criou todas as imagens que você vê e o trabalho é muito legal. Teremos uma aula específica sobre ele. O projeto traz uma consistência enorme, pois falamos de um mesmo artista, com qualidade estética muito boa e filtros VHS para deixar as coisas mais retrô, que funcionam muito bem.

O link para esses clipes estará na descrição da aula.

Outro exemplo de imagem para vídeo é uma campanha que foi para o ar na TV americana recentemente. Percebe-se que há um trabalho evidente de pós-produção para colocar a tela no celular, mas o nível de controle alcançado dificilmente seria possível só com ferramentas de texto para imagem.

Agora, uma outra técnica na IA é a imagem para vídeo para imagem, que significa escolher a imagem que começa e a imagem que termina. Escolhi um vídeo do BludZinger, o meme infinito, que juntou diversos memes. A técnica é possível justamente porque a IA conecta uma imagem com a outra, fazendo uma transição a partir do prompt. Por exemplo, começa-se com uma imagem e termina em outra; o prompt faz a ligação e a IA conecta os dois vídeos. Esse vídeo é eterno e muito divertido. Às vezes a IA faz um movimento de câmera, outras vezes algo bizarro, como transformar a pessoa, dependendo do comando e do prompt.

Isso é ótimo para conteúdos mais fluidos e de transição, como outro exemplo da campanha "friendship", que também foi um comercial de 15 segundos. Note que foi feito com 3 ou 4 imagens, tudo sobre as transições. Mais um exemplo de transição em projeto comercial é um vídeo para uma marca de colágeno, mostrando o rosto da mulher sendo trabalhado. Tinha um vídeo curto e uma imagem feita com IA; a conexão foi feita com essa técnica, muito simples. Outro exemplo na mesma linha: eu tinha só uma imagem e o final do vídeo, e a transformação foi toda feita com IA. Você consegue fazer um vídeo com duas imagens apenas ou um vídeo tradicional captado pelo celular com uma imagem de IA fazendo a ponte com inteligência artificial.

Esse é o principal motivo para eu usar o Pika.art. Para mim, é a melhor ferramenta de transição. Embora você possa usar em praticamente todas as plataformas, acho que o Pika tem uma movimentação mais criativa e uma função específica chamada "Frames" que você pode utilizar. No Pika.art, há uma técnica para colocar uma imagem dentro de um vídeo. Tenho um vídeo que fiz para o lançamento brincando com essa ideia. Diferente das técnicas anteriores, onde uma imagem se transforma em vídeo, aqui você adiciona uma imagem dentro do vídeo. O resultado é super bacana. O tutorial é simples: pegamos um vídeo, colocamos uma imagem e rodamos com um prompt que você definiu. O desafio dessa técnica é que sempre vai distorcer um pouco seu vídeo. Como qualquer vídeo colocado dentro de um software, ele perde qualidade na exportação, mas com IA a perda pode ser maior. Dependendo do uso, essa distorção pode exigir outro processo para corrigir, ou você pode trabalhar considerando essa limitação, por exemplo, usando tomadas mais afastadas da câmera.

Uma técnica semelhante é o "multi images", em que você coloca diversas imagens e pede para gerar um vídeo. Antes da Fernanda ganhar o Oscar, por exemplo, pedi para fazer uma imagem dela ganhando o Oscar, combinando a imagem da Fernanda, a do Oscar e um prompt que descreve a mulher sorrindo e levantando a estatueta. A IA criou essa fotomontagem para depois transformar em vídeo. Antigamente, há seis meses, por exemplo, precisaríamos criar essa imagem usando Photoshop ou Midjourney para depois transformar em vídeo. Agora é possível fazer direto.

Outro exemplo de multi images envolve um videoclipe que fiz para um evento, onde me desafiei a usar apenas duas imagens para criar o clipe inteiro. Tudo que está ali foi gerado com essas duas imagens, aplicando prompts diferentes. Coloquei a imagem da menina, a do robô, com comandos de dança, expressão, passando por laser. As variações causam distorções, dada a tecnologia da época, mas é uma técnica muito legal para manter a consistência dos personagens.

Para finalizar, a última técnica é o vídeo para vídeo, talvez a mais subestimada. Ela abre muitas possibilidades e tem um vídeo curto que eu fiz junto com a Vic para demonstrar. Essa técnica é ruim para manter a consistência do rosto, mas é ótima para criar transformações para lugares completamente diferentes. A melhor ferramenta hoje para isso é o Luma; basicamente só uso ele para essa função. Tem um vídeo do lançamento dessa função que vale a pena conferir. Basicamente, qualquer coisa pode ser transformada usando vídeo para vídeo. Você pode fazer essas transformações com texto, escrevendo um prompt para o que deseja, ou colocando uma imagem como referência ou imagem "retexturizada", um conceito que citamos antes, que ajuda a ter mais precisão.

Um exemplo é um trabalho que fiz para uma marca de sofá americana: um vídeo curto de 4 segundos, uma intro para mostrar que o produto é resistente a diversas situações. O vídeo para vídeo foi perfeito para isso, mostrando o sofá em diferentes situações.

Essas são as três principais formas de criar vídeos com IA, utilizando as ferramentas comentadas no início. Cada uma delas é melhor para determinadas coisas, mas todas entregam um material de qualidade. Para fechar, um bônus: lip-sync, ou como fazer suas imagens ou vídeos falarem o que você quer. Todas as plataformas têm uma função de lip-sync, e as duas melhores eu vou mostrar agora.

O Google VEO permite que você coloque uma imagem e um texto para que ela fale, ficando praticamente natural. O VEO3 traz muita fluidez para os movimentos, mas tende a distorcer um pouco o rosto. Para maior consistência, recomendo o Runway, que foi como cheguei no resultado mostrado. Ele acabou de lançar a função Act 2, que captura não só as expressões do rosto, mas também as do corpo. Essa é uma ferramenta impressionante, especialmente para quem tem boas habilidades de atuação. Ela é um pouco mais complexa porque precisa de um vídeo como base, mas entrega o melhor resultado.

Se quiser fazer as imagens falarem sem mandar arquivo base, como no Google VEO, todas as plataformas, com exceção do Seedance, oferecem algo relacionado a lip-sync. A melhor qualidade está no VEO, o melhor controle no Runway, e o Kling fica no meio-termo, principalmente se não quiser subir um vídeo base.

Por hoje é isso! Espero que você tenha curtido. Como falei, é uma aula introdutória para termos uma visão geral do que pode ser feito. Precisamos atualizar essa aula praticamente todo mês porque as coisas mudam o tempo inteiro. O objetivo é trazer um termômetro da IA e do que é possível ser feito.

Tem diversas aulas relacionadas, mais técnicas, com tutoriais e aprofundando plataformas específicas, para te ajudar a criar vídeos de IA com qualidade. Valeu!

Termômetro da IA: Vídeos