Usando Efeitos Especiais com IA

Live gravada em:

September 30, 2024

Saiba como usar as principais plataformas de inteligência artificial para criar efeitos especiais impressionantes em vídeos. Entenda desde o cenário atual da IA para vídeo até técnicas práticas de Image-to-Video e composição com cenas reais. Aprenda a estruturar prompts eficientes, misturar gravações com conteúdos gerados por IA e lidar com as limitações e possibilidades das ferramentas para gerar resultados reais e criativos.

Atualizações da aula:

Cenário Atual da IA para Vídeo

A tecnologia de IA para vídeo ainda está evoluindo e tem um atraso aproximado de um ano em relação à IA para imagem, principalmente em realismo e fidelidade. Exemplos comparativos mostram progresso significativo, e a expectativa é que em poucos anos os vídeos gerados por IA possam parecer completamente reais.

Plataformas Usadas

As principais ferramentas são Runway, Kling, Luma e Krea, que alternam posições em termos de qualidade e funcionalidades. Runway destaca-se pela variedade de recursos como recorte, máscara e motion tracking, enquanto Kling é a melhor opção atual para vídeos verticais.

Técnicas de Geração

Image-to-Video: usar uma imagem estática e gerar vídeo com movimento baseado em prompt. Essa é a técnica principal da aula, com exemplos práticos.
Composição: mistura de cenas geradas por IA com cenas reais filmadas, usando máscaras para unir e dar mais movimento e naturalidade.
Text-to-Video: pouco usado por oferecer menos controle.

Dicas de Prompts

Uma boa estrutura inclui o tipo de câmera, descrição da cena e movimento esperado. Os movimentos sugeridos nas plataformas (ex: high angle, tripod shot) são essenciais para controlar o resultado. Além disso, o uso de negative prompts é fundamental para evitar erros, especialmente distorção de rostos e elementos visuais indesejados.

Erros Comuns e Limitações

IA pode produzir imagens irreais ou distorcidas, principalmente com pessoas. Muitos erros na geração são normais e fazem parte do processo de experimentação para aprimorar o resultado final. A paciência e a adaptação de prompts são necessárias.

‍

Hora de CR_IAR!

Criar um vídeo curto de 5 segundos usando uma imagem estática de sua escolha e gerar movimento com um prompt bem estruturado, aplicando a técnica Image-to-Video em uma das plataformas gratuitas ou de teste. Depois, fazer uma composição simples misturando o vídeo gerado com uma cena real gravada por você, aplicando máscaras básicas para integrar as duas imagens.

Transcrição da Aula

Boa noite, pessoal! Paulo Aguiar aqui. Estamos começando mais uma live aula gratuita do CR_IA. Eu vou conduzir hoje, e o tema é efeitos especiais com IA.

Vou projetar aqui a minha tela e queria incentivar todo mundo a deixar comentários no chat, dúvidas e sugestões. A ideia é que essa live seja bem dinâmica. Vou mostrar um pouco do cenário atual de vídeos com IA, uma breve introdução, e depois a gente entra especificamente nos efeitos especiais, imagem para vídeo. Também vou abrir alguns projetos, mostrar edição, dar dicas de prompt, falar sobre coisas que deram certo e que não deram, porque quem já tentou sabe que não é tão simples quanto parece, principalmente quando se vê vídeos rápidos ensinando.

Qualquer dúvida podem mandar no chat, e acho que a gente vai reservar uns 10 minutos para perguntas no final, porque o objetivo é tirar todas as dúvidas. A interação de vocês ajuda bastante.

Hoje vamos falar bastante do Runway e do Kling, que foram as duas IAs que usei no último vídeo. Vou falar mais sobre qual usei mais, porque na época ela estava melhor. Curiosidade: no dia em que postei o vídeo, o Runway lançou uma atualização para vídeos verticais.

Primeiro, vamos entender o cenário atual da IA para vídeo. Todos devem ter acompanhado algumas notícias. Costumo dizer que a IA de vídeo está cerca de um ano atrasada em relação à IA de imagem em termos de realismo e fidelidade.

Sempre gosto de mostrar como era a IA de vídeo em 2023: um vídeo com o prompt "The Rock Eating Rocks" — ou seja, The Rock comendo pedras. Dá para entender a ideia, mas a qualidade era impraticável. Se você olhar de longe e fechar os olhos, dá para imaginar.

Um ano depois, se buscar hoje "The Rock Eating Rocks", essa é a evolução que temos: ainda distante do ideal, porque uma pessoa comendo pedra é algo difícil de imaginar, sem muitas referências, mas já com um nível de qualidade bastante considerável e uma evolução legal. Então, podemos esperar que em 2025 muitos acreditem que isso de fato aconteceu, pois a realidade está cada vez mais impressionante.

Falando das plataformas que uso hoje: Runway, Luma, Krea e Kling. Elas se revezam em qual é melhor. Em junho, quando o Luma lançou o Dream Machine, primeira IA de vídeo deles, era disparado o melhor. Depois surgiu o Kling, que tomou a liderança, e aí o Runway lançou a Gen3, que está no mesmo nível, dependendo do projeto.

A Krea está meio paralela, mas pode lançar uma versão nova que supere todas essas. É uma verdadeira corrida do ouro das plataformas. Minha primeira dica é testar todas elas. Quando faço projeto, uso as quatro ao mesmo tempo para ver qual gera o melhor resultado, e às vezes misturo resultados no mesmo vídeo, como no vídeo que vou mostrar para vocês.

Sobre os custos: hoje não temos muitas plataformas gratuitas de qualidade. No Runway, você pode testar cerca de 10 clipes na versão mais simples. Kling só tem versão gratuita não profissional, e Luma não tem mais versão gratuita por conta do volume de acessos. O Krea permite uso gratuito.

Vou mostrar um vídeo rápido do que é possível fazer hoje com IA para vídeo. É um demo do Runway, que dá uma noção do nível de qualidade atual.

Basicamente, há três técnicas para vídeos com IA. Eu não uso muito Text-to-Video porque você tem pouco controle; é melhor criar uma imagem primeiro, seja ela gerada por IA ou uma imagem sua, e depois utilizar isso.

Falando de Image-to-Video, basicamente você dá uma imagem e um prompt para a IA gerar um vídeo. Um dos vídeos que mais viralizaram com essa técnica foi do Kling, com os famosos se abraçando e suas versões mais jovens — montagem antiga, quase 10 anos. Essas imagens foram transformadas em vídeos e viralizaram.

Vou compartilhar alguns dos meus projetos feitos com Luma, como a capa de um disco de amigos transformada em vídeo. Gosto bastante do resultado do movimento de câmera.

Outro exemplo com imagens produzidas no MidJourney, que editei com cores, ruídos e trilhas sonoras para dar mais dinamismo, o que ajuda porque as imagens ainda não são perfeitas. Colocar cenas rápidas ajuda muito.

Um outro exemplo legal de Image-to-Video é do Runway, que usou imagens geradas no Flux, IA que cria imagens realistas, e adicionou um prompt para que as pessoas falassem. Não tem áudio nem lip sync perfeitos, mas o resultado é incrível com pessoas hiper-realistas.

Também testei o Kling com uma imagem do Flux para ver se a IA conseguia simular uma pessoa fazendo selfie, um movimento complexo de câmera. A IA entendeu e gerou um movimento muito interessante, ainda não perfeito, mas mostrando o rumo do realismo.

O vídeo principal que espero que todos tenham visto, e que vou deixar o link no chat para quem não viu, misturou cenas geradas por IA com cenas reais e fotos minhas, criando efeitos especiais. Esse vídeo viralizou muito: 9,6 milhões de views, 634 mil likes, muitos compartilhamentos e salvamentos. Trouxe uma audiência enorme para meu perfil, incluindo muitos seguidores internacionais.

O sucesso do vídeo representa muito para o nosso trabalho com IA. Ganhei 60 mil seguidores com esse vídeo, mas curiosamente, há 164 mil pessoas que apenas o enviaram, sem seguir, o que mostra que o compartilhamento é uma métrica poderosa hoje, mais importante que likes ou comentários.

A técnica usada foi Image-to-Video e Image-to-Video com composição — misturar resultados de IA com cenas reais filmadas para dar mais dinamismo, que é o que torna tudo mais interessante.

Vou detalhar a produção das cenas, abrindo a timeline e mostrando a edição.

Começando com Image-to-Video: peguei uma imagem estática, adicionei um prompt e o resultado foi uma das cenas que mais gosto, onde abro a porta e saem flores. É impressionante como a IA cria iluminação que reflete, produz sombras, com nível profissional de composição, em uma cena que demoraria muito para ser feita manualmente.

Outro exemplo: usei o mesmo setup, adicionei uma foto com prompt e criei uma cena de confetes caindo em slow motion, embora não tivesse pedido slow motion — também fiz uma de gosma caindo na cabeça, em slow motion.

Cenas simples, como confete caindo, facilitam o entendimento pelo IA e agilizam o processo. Depois falo mais sobre prompts.

Outra técnica é a composição, onde filmei uma cena real sentando e olhando para trás, e depois gerei a cena do urso gigante no Kling. Usei máscara para compor as duas cenas e ajustar a montagem no CapCut desktop, com efeitos simples de máscara para a transição. Essa técnica foi usada em outros vídeos.

A maior dificuldade da IA é criar cenas totalmente estáticas — a câmera quase sempre tem um mínimo de movimento, o que complica a máscara. Inicialmente, quis fazer todos os vídeos assim, mas foi difícil, então optei por colocar uma imagem estática para conseguir criar mais cenas.

Um exemplo é o gatinho japonês Maneki-neko. Quis fazer o gato começar a dançar, mas ele é pequeno e tem pouca informação para a IA, não deu certo mesmo com prompts elaborados. Depois, apareceu uma cena de um gato estranho dançando e coloquei na composição com a minha mão, dando a impressão de que eu mexo o gato.

O Kling era o único que fazia vídeos na vertical na época; Runway só lançou isso depois. Usei máscaras para compor essas cenas, numa técnica que repeti várias vezes.

Sim, errar prompt dói no bolso, pois consome créditos. Eu pago o plano ilimitado do Runway, então gasto bastante. O movimento nessas cenas foi 100% feito por IA.

Agora, sobre prompts: vou liberar um documento com todos os prompts usados e uma técnica "master" para criar prompts sem escrever — algo que me ajudou muito. A estrutura ideal do prompt inclui tipo de câmera, descrição da cena e movimento esperado. As próprias IAs recomendam essa estrutura.

Também recomendo usar o Help do Runway, que tem uma seção sobre estrutura de prompt com exemplos de movimentos de câmera (high angle, overhead, FPV, handheld, wide angle, etc.). Vale a pena conferir, eles atualizam com frequência.

Exemplos de prompts que usei: para a cena do arco-íris, uma rua vazia e uma onda massiva de líquido colorido enchendo a rua, com descrição detalhada do movimento.

Em outra cena, para tentar fixar a câmera estática, usei "static tripod shot" e "the camera must not move at all". Isso ajudou, mas ainda há pequenos movimentos que complicam a máscara.

O urso branco fofo emergindo do fundo do corredor foi uma das cenas principais.

Às vezes, pedo que a IA faça movimentos sem alterar a pose, mas a IA ainda tem limitações.

Fiz várias tentativas, muitas resultaram em cenas bizarras: prateleiras com árvores, livros voando, plantas crescendo que não funcionaram direito. Algumas cenas foram rejeitadas na edição por ficarem ruins ou "trágicas".

Um dos desafios é que a IA distorce rostos e figuras, principalmente no Kling, que é uma ferramenta chinesa treinada majoritariamente com rostos asiáticos. Para evitar isso, uso muito negative prompts, que são listas do que não quero na imagem (ex: camera shake, motion blur, low resolution, cartoonish texture). Isso melhorou os resultados.

Use a própria IA para criar esses negative prompts, é uma dica de ouro.

Quando faço prompts, às vezes peço para a IA criar ideias e variações, o que ajuda a sair da rigidez e evitar frustrações. Recomendo estar aberto a variações para criar boas cenas.

Sobre uso profissional: o mercado está bastante aquecido. Depois do vídeo viral, várias empresas, de diferentes tamanhos, me pediram orçamento, principalmente para produção de conteúdo para redes sociais.

Se quiser trabalhar com isso, apresentar exemplos e precificar, há bastante demanda.

Sobre o curso CR_IA: é a nossa plataforma de inteligência artificial generativa. Sou suspeito para falar, mas é maravilhosa.

Agora, falando de custos das plataformas:

Kling: versão standard gratuita para cenas simples, versão Pro custa 3,88 dólares, anual com 30% de desconto (não recomendo pagar anual, pois as plataformas mudam muito). A versão Pro dá 660 créditos, sendo que um vídeo de 5 segundos custa 35 créditos, 10 segundos 70 créditos. Com 3,88 dólares, dá para fazer 17 vídeos.
Runway: versão básica com 125 créditos, não permite uso das versões avançadas (Gen2, Gen3). Versão Standard custa 15 dólares, dá acesso à Gen3 (image-to-video, vídeo-to-vídeo). Consumo é diferente nas versões Alpha e Alpha Turbo. Alpha Turbo é mais rápida, mas qualidade um pouco inferior.
Comparando: Runway com 15 dólares dá para fazer 25 vídeos de 5 segundos, então Kling é mais barato. Se for trabalhar profissionalmente com vídeos verticais, Kling é uma boa alternativa.
Runway também possui ferramentas adicionais como recorte de vídeo, máscara, motion tracking e reconstrução de fundo, muito úteis.
A versão ilimitada do Runway custa 95 dólares mensais, uma facada, mas para quem trabalha profissionalmente é a forma mais tranquila para não ficar preocupado com créditos.

Planejo fazer uma aula específica de vídeo-to-vídeo, técnica que utilizei no meu último vídeo, onde peguei meu próprio vídeo e modifiquei inteiramente com IA mantendo proporções.

Sobre criação e edição: editar dá mais trabalho do que gerar imagens. Gerar é sentar e pedir prompts, mas o resultado é aleatório; você precisa estar aberto a caminhos inesperados. Na edição, você tem controle total do que está fazendo.

Repito muito os mesmos prompts porque IA de vídeo é aleatória; mudar uma palavra pode mudar muita coisa.

Por fim, mostro que até uma imagem simples da Viki se transformando em pantera gerou resultados engraçados, ilustrando que o processo é de experimentação e paciência.

Essa é a realidade da criação de vídeos com IA. Pode parecer simples nos vídeos de tutorial, mas dá trabalho, tentativas e erros.

Para responder perguntas ao vivo: sim, dá para pedir na IA para simular movimentos de câmera (como pan), e o Runway tem vários exemplos de movimentos para aplicar.

Stable Diffusion também tem experimentos com vídeo, especialmente projetos open source, mas é mais complexo e exige instalação local, geralmente via ComfyUI ou similares.

Enfim, pessoal, essa foi a aula. Quem é membro tem acesso à live gravada e à área de membros do Cria com todo o conteúdo, incluindo os prompts que utilizei.

Obrigado a todos que participaram. Quem quiser pode me mandar DM no Instagram com dúvidas que respondo a quase todo mundo. Boa semana e até a próxima! Tchau, tchau.

‍

Usando Efeitos Especiais com IA