Lipsync: fazendo fotos e vídeos falarem usando IA

Live gravada em:

December 4, 2024

Você vai aprender como usar inteligência artificial para animar fotos e vídeos estáticos, fazendo com que eles falem e expressem emoções reais. Conhecerá as principais plataformas de lipsync, suas funcionalidades e vantagens, além de técnicas para criar avatares virtuais com expressões naturais. Também verá exemplos práticos para aplicar em conteúdo digital, marketing pessoal ou negócios, potencializando a criatividade e produtividade.

Atualizações da aula:

Introdução ao lipsync com IA

Lipsync é a técnica que faz fotos estáticas e vídeos falarem sincronizando a boca e expressões faciais ao áudio. Isso abre muitas possibilidades para criação de conteúdo, avatars virtuais, marketing digital, e produção audiovisual, especialmente para quem não quer ou não pode aparecer em vídeos.

Apresentação das principais plataformas

Runway: Plataforma preferida para lip sync, que além de sincronizar a boca, captura microexpressões faciais gerando um vídeo natural. Possui ainda funções para expandir vídeos e geração de áudio e imagens.
Hedra: Gratuita, boa fluidez, gera vídeos a partir de áudio sem precisar gravar vídeo. Ideal para criar conteúdo temático, como o da competição de Halloween que o Paulo participou.
Studio D-iD: Focada em criar agentes e avatars virtuais interativos para sites.
HeyGen: Excelente para criar avatars virtuais falantes, com muitas possibilidades para criadores de conteúdo.
Lora: Técnica para treinar IA com sua própria foto, permitindo gerar imagens personalizadas em várias situações.

Como funciona a criação de lip sync

O processo básico consiste em ter um vídeo de controle (driving video) com expressões faciais e um personagem (imagem ou vídeo) que será animado. O software interpreta as expressões do driving video e gera o vídeo final sincronizado.

Dicas importantes

Use vídeos de boa qualidade e com a boca visível para melhores resultados.
Imagens verticais precisam de ajuste para evitar cortes.
Evite imagens com detalhes que possam confundir a IA.
Algumas plataformas bloqueiam imagens de pessoas famosas por direitos autorais.
Testar diferentes inputs pode melhorar o resultado (exemplo: usar vídeos famosos como controlador).

Aplicações práticas

Criar conteúdo para redes sociais sem aparecer: avatars virtuais falantes.
Produção de marketing: vídeos explicativos, pitches de produto com personas digitais.
Entretenimento e educação: personagens que interagem falando com o público.
Criação rápida de vídeos que combinam voz, expressões e imagem para comunicação mais eficiente.

Recomendações

Explore as plataformas, faça testes com seus próprios vídeos e imagens, observe as peculiaridades e custos para definir o mais adequado aos seus projetos. Temos também um curso aqui no CR_IA sobre criação de avatares virtuais, para você explorar essas ferramentas com mais profundidade!

Hora de CR_IAR!

Crie um vídeo lipsync usando uma das plataformas apresentadas (como Runway ou Hedra). Escolha uma foto sua ou de um personagem fictício, grave um pequeno áudio falando algo simples, e depois importe para a plataforma para gerar um vídeo em que a imagem “fala”.

Compartilhe o resultado no nosso Discord (no canal "mostra-aí") e faça uma análise crítica sobre o realismo e os ajustes que seriam necessários para melhorar a naturalidade.

Transcrição da Aula

E aí, galera, tudo bem? Começando mais uma live do CR_IA, a nossa segunda nesse horário.

Obrigado pela participação de todo mundo. Vamos esperar uns três minutinhos para as pessoas acessarem. Mandei o link no canal de transmissão, o pessoal também recebeu por e-mail e, obviamente, todo mundo que já faz parte do CR_IA recebeu nos nossos canais oficiais. Essa é a primeira live que estou fazendo aqui no YouTube, então estamos aprendendo e fazendo ao mesmo tempo. Quem puder, manda um salve nos comentários para eu ver se vocês estão ouvindo e se está tudo certo, porque logo vamos começar. Ainda não estou com o lipsync, mas já já vai.

Vamos passar por diversas plataformas para vocês. Bom, o pessoal está entrando aí, mas queria começar me apresentando. Acho que quase todo mundo aqui me conhece. Para quem ainda não me conhece, eu sou o Paulo Aguiar, cofundador do CR_IA, diretor de criação, criador de conteúdo, designer, professor, consultor, várias coisas ao mesmo tempo. Agora vocês estão vendo meus slides? Como falei, estamos aprendendo nas lives aqui do YouTube.

Hoje vamos falar sobre lipsync, como fazer fotos falarem. Vou dar uma visão geral das plataformas, mas antes de tudo, me apresento formalmente: sou Paulo Aguiar, cofundador do CR_IA, diretor de criação, criador de conteúdo, designer, professor e consultor. Se você ainda não me segue, meu arroba é @paulofaguiar. Tenho produzido conteúdos semanais sobre inteligência artificial.

Comecei minha carreira como criativo em agência de publicidade, onde fiquei 15 anos, sendo 10 deles no grupo Publicis como diretor de criação. Depois fui diretor de marketing e empreendi no universo dos games, fundando seis empresas em três anos. Em meio a tudo isso, surgiu a inteligência artificial generativa, o que despertou minha curiosidade até que percebi que isso poderia ser meu trabalho. Desde o começo deste ano, trabalho 100% com IA, sou independente, faço parte do CR_IA e estou aqui falando com vocês, tentando aprender, criar e ensinar o máximo possível sobre IA generativa.

Esse sou eu, vamos ao que interessa: vídeos de lipsync feitos com IA.

Vou mostrar alguns exemplos; o primeiro deles talvez tenha trazido vocês para essa live. Eles foram criados em várias plataformas, vou passar por cada resultado, depois fazer um comparativo e um tutorial completo da que acho a melhor para vocês usarem, beleza?

Começando com um exemplo. Quer aprender a fazer fotos e vídeos falarem e em poucos segundos ter resultados como esse? Isso é 100% inteligência artificial. Curtiu? Inscreve-se aí para nossa aula gratuita, onde vou ensinar tudo isso e muito mais.

Esse aqui foi feito usando o Runway. Tenho também um que fiz com o Hedra, uma plataforma bem legal. Foi para um concurso de Halloween, não vou dar play no vídeo inteiro, mas só mostrar a parte do lipsync. Este ano não fui convidado para nenhuma festa de Halloween, mas participei de uma competição de IA com esse tema, e a plataforma que fez o convite tem a funcionalidade que vocês tanto pedem: fazer fotos falarem, e o melhor, de graça.

Pensei que o vídeo na competição fosse ensinar as pessoas a usarem a ferramenta, enquanto eu apresentava várias versões macabras minhas para manter o tema e chamar a atenção. Nem sei se isso é permitido, mas bora para o que interessa. Podemos até perder a competição, mas vocês vão aprender algo legal. A plataforma se chama Hedra, e eu ensino como usar, tem o vídeo lá no meu Instagram.

Sobre essa competição do Hedra, vocês sabem quem ganhou? Não fomos nós. Teve outro vencedor, então basicamente fizemos uma publicidade gratuita para o Hedra, mas é assim que mostramos as ferramentas para vocês. Gostei bastante do resultado, acho o Hedra bem fluido. Ele pode falhar se a imagem tiver muitos detalhes, mas é um dos que deixa mais natural. No Hedra, você gera vídeos a partir de áudio, sem precisar gravar um vídeo para copiar as impressões; ele interpreta o áudio diretamente.

Tem também o Studio D-id. Esse conteúdo fiz em março e ele ainda é útil para dicas do ChatGPT. Se você está começando no mundo da IA, esse vídeo dá umas dicas para o ChatGPT. E claro, tem o lipsync do começo ao fim. Transformei o ChatGPT em um avatar e hoje vou começar com ele. Criamos um quadro de entrevista com o ChatGPT. Perguntei como funciona:

— "Mas isso o Google já faz, né?"

— "Bom ponto. A diferença é que além de buscar informações, eu também posso entender texto, conversar, gerar ideias, escrever textos e até programar. É como se o Google e um assistente criativo tivessem uma filha."

— "Boa! Que dica você daria para as pessoas tirarem o melhor de você?"

— "Trate-me como uma amiga super inteligente que está sempre pronta para ajudar. Seja específico no que precisa e não hesite em me colocar à prova, desde questões complexas até tarefas criativas. Resumindo, fale comigo como se eu fosse uma pessoa que sabe utilizar a internet como ninguém, de forma direta e específica, e dê feedback, já que raramente acerto de primeira, assim como as pessoas."

Para fechar uma pergunta mais pessoal: "Você acha que a IA vai substituir o trabalho humano?"

— "Acho que IA vai complementar, não substituir. Nós, IAs, somos ótimas ferramentas, mas criatividade, empatia e intuição humana são insubstituíveis. Juntos podemos alcançar mais."

Como nesse vídeo, onde eu tive a ideia, escrevi o roteiro, e dei meu toque para torná-lo mais humano. E aí, legal ou bizarro? Talvez os dois, né? Deixa nos comentários o que achou e, claro, se quiser me ver em mais vídeos por aqui.

Foi meio esquisito, porque eu fiquei reagindo a um vídeo enquanto reagia ao vídeo, mas não sei se vocês já tinham visto. Esse é um projeto logo que saiu o Studio D-id, para criar esse personagem e dar vida para ele. O Studio D-id evoluiu muito, ele tem uma função de criação de agentes, vale a pena dar uma olhada.

Em termos de qualidade, temos outras opções melhores hoje, mas é uma plataforma legal, especialmente para criar um agente, tipo colocar esse personagem num site, onde ele conversa com as pessoas quase em tempo real. Tem um custo, claro, mas você tem um avatar virtual para interação.

Por último, temos um vídeo que não é só lipsync o tempo todo, mas tem várias cenas e um resultado interessante. Aqui ensinam o uso do Lora, mas queria que observassem só a parte do lipsync, que é o foco do nosso papo.

Hoje vou te ensinar a fazer imagens usando o seu rosto com inteligência artificial. Sério, ensinar uma montagem gerada por prompt, onde posso me colocar em qualquer situação, desde uma quadra da NBA até uma batalha samurai, passando por cenas icônicas de filmes, jogos, até rolês insanos com o Dead Green ou meu gato. Posso virar brinquedo ou popstar, dá pra fazer qualquer coisa. Bora aprender?

Essa técnica se chama Lora, onde você treina uma IA para criar imagens com a sua cara. Testei várias maneiras e vou ensinar a mais simples, que você pode testar de graça. Tem o vídeo onde ensinamos a entrar no perfil. Esse exemplo foi feito com o Live Portrait, que não é plataforma web; você precisa instalar no seu computador. Hoje não vou entrar nessa técnica, mas se acharem legal, deixem comentários para fazermos uma live só sobre plataformas que rodam localmente no seu PC. Costumo não falar muito delas porque é mais complexo, exige uma configuração de GPU e nem todo mundo tem um computador que rode.

As outras plataformas que mostramos aqui independem da configuração; basta ter internet. Diferente do Live Portrait, que exige GPU.

Por fim, isso foi feito no Regen. Quem já foi em alguma palestra minha sabe que sempre uso essa imagem da frase de Pablo Picasso: "Tudo que você pode imaginar é real". Costumo dizer que hoje tudo que imaginar pode ser feito com IA, inclusive fazer Picasso dizer essa frase. Uso essa brincadeira para mostrar a diversidade da aplicação das técnicas.

Queria falar um pouco das aplicações: é óbvio que podemos usar isso para criar avatars virtuais, materiais audiovisuais, até para tirar onda numa palestra. Mas a partir do momento que dá para dar vida à imagem estática, transformando em vídeo, abre muitas possibilidades, principalmente para criadores de conteúdo.

Falo com muitas pessoas que têm muito conhecimento, mas receio de gravar para câmera, aparecer. Com essa ferramenta, você pode criar um avatar virtual, completamente virtual, ou até clonar você mesmo usando HeyGen, que é hoje a melhor plataforma para criar avatars virtuais e fazer diversos conteúdos.

Muitos VTubers, YouTubers e criadores de conteúdo estão crescendo e produzindo sem aparecer, usando essas técnicas. Acho que essa é uma das coisas mais legais do uso da IA hoje: ficou fácil, rápido e o custo diminuiu muito. Seja para seu perfil ou negócio, criar um avatar virtual que fala, com voz específica e personalidade, é algo que faz muito sentido.

Beleza, galera? Se tiverem dúvidas, coloquem no chat, estou aqui para tirar todas relacionadas ao tema. Agora vou entrar no detalhe da plataforma que acho que faz mais sentido, a que usei no primeiro vídeo: o Runway. Mas qualquer dúvida, escrevam nos comentários que estou de olho.

Vamos lá: Studio Studio D-id, Runway, HeyGen e Hedra são as melhores hoje para lipsync, são as que uso bastante. Antes de entrar na mais recomendada, aqui está uma tabela comparativa de valores e URLs certinhas. Recomendo cuidado na hora de procurar no Google essas IAs, pois muitas plataformas compram links patrocinados, levando a sites errados. Não necessariamente golpistas, mas que não funcionam como prometem.

A Yasmin colocou o link do Runway, que é o principal e o que vamos usar hoje.

O Runway tem várias funções. Quando geramos vídeos ainda não temos real time em inglês, mas talvez futuramente coloquemos legendas em real time. O Runway tem geração de áudio, imagem, lipsync (que mostramos aqui), além de funções específicas de vídeo como remover background, expandir imagem, interpolação de frame (slow motion), recortes, remix de background, variações de estilo, criação de vídeo em si, color grading, super slow, blur de face, entre outras.

É uma plataforma que recebeu investimento pesado, confiamos que terá ainda mais funções. Hoje é uma das que mais vale a pena. Ela é a melhor para criar vídeo? Acho que não, mas no geral é muito boa.

Vamos ver se o vídeo nosso está pronto: está em 75%, quase lá. Depois vou gerar outro para comparação. Alguma dúvida enquanto esperamos? Sobre animais, passarinho acho difícil, mas achei função no Live Portrait só para animais, que deve funcionar melhor.

Aqui temos nosso cachorro: "Tá a fim de aprender a fazer suas fotos e vídeos falarem? Não só falar, mas usar expressões faciais?". Funcionou, ele meteu uns dentões no cachorro, ficou meio sem focinho, parece que tem uma pessoa dentro do cachorro, mas no geral ficou legal.

Pedi para gerar mais um para ver. Velocidade varia muito, depende do dia e do servidor. Runway é uma das mais rápidas, só perde para o Luma.

Minha IA favorita para vídeo é o Kling. Hoje vou soltar um vídeo comparando as cinco principais IAs para criação de vídeo, falando do melhor de cada uma. Spoiler: acho o Kling a melhor para vídeo hoje, em nitidez e motion. Não é a melhor em custo, pois projetos grandes gastam mais, mas o resultado é superior. Por exemplo, o vídeo da Libertadores que fizemos para o Botafogo foi 90% feito no Kling, só algumas cenas no Runway.

Eu, o Gabriel (que assiste essa live) e o Fê Pacheco tocamos o projeto de criação de assets com IA, testamos todas as IAs por uma semana e geramos mais de 600 vídeos. O Kling foi o melhor. Para quem não viu, vou deixar o link do vídeo da Libertadores. Biel, manda o link para a galera se estiver assistindo.

Voltando, o link do trabalho da Libertadores estou passando para Yasmin colocar. Esse vídeo da final da Libertadores foi feito 90% no Kling em termos de imagem, só algumas cenas no Runway. Vamos ver o novo vídeo: "Tá a fim de aprender a fazer suas fotos e vídeos falarem? Não só falar, mas usar expressões faciais?". Gostei.

Vou fazer outra live só de vídeo, mostrando o processo completo do projeto: do briefing até a geração de imagens, vídeos, montagem. Se tiverem interesse, mandem no chat.

Agora, para fechar, essas foram as plataformas que vimos hoje.

Nosso favorito é o Runway para essa técnica. Mas para projetos de longo prazo, vale testar outras. Se for fazer 10 vídeos por dia e não quiser gravar, melhor usar Studio Studio D-id ou Hedra. Se não quiser traduzir vídeos e for você mesmo falando, o melhor é HeyGen.

Cada plataforma tem sua peculiaridade.

No CR_IA temos um curso só sobre isso, onde falamos sobre Studio Studio D-id e HeyGen. Na época não existia Hedra nem essa função do Runway, mas o curso ainda está bem atualizado.

‍

Lipsync: fazendo fotos e vídeos falarem usando IA