Então, pronto, agora sim, sejam bem-vindos, bem-vindas à nossa aula sobre clonagem de voz usando inteligência artificial para isso.
E aí, quero mostrar para vocês, olha só, temos efeitos especiais agora nas nossas aulas. Quero mostrar um pouco do cenário de uso de voz para criação, rápido, porque no CR_IA daqui a pouco vai ter aula só disso, especificamente.
Enfim, criação de voz por inteligência artificial não é algo novo. E por que a gente está falando disso agora? Porque a tecnologia muda, a gente muda a nossa relação com ela. Quando falamos especificamente da clonagem de voz e como podemos usar isso, percebemos novos usos e uma nova qualidade que a IA proporciona.
Mas não é algo novo. Por exemplo, essa narração do TikTok também é feita usando IA. Essas vozes chatas que temos no TikTok são feitas usando de alguma forma inteligência artificial. Só que podemos ir muito além disso, não só no TikTok, mas também no CapCut, onde você já pode gerar vozes diferentes usando IA.
Queremos ir além disso porque há muitas aplicações para criar vozes com IA: narrações em vídeos, criação de audiobooks e podcasts, com ferramentas específicas para isso. Além disso, traz acessibilidade via áudio, com botões que leem textos em sites usando IA, facilitando para quem não consegue ver, por exemplo, e usando APIs para isso.
Também há serviços de suporte ao consumidor usando gravações e criação de agentes de voz, como Alexa, ou ChatGPT com voz. Esses são alguns usos da criação de voz via inteligência artificial.
O primeiro ponto é que você pode usar essas ferramentas integradas, como TikTok ou CapCut, com vozinhas engraçadas que ajudam a criar conteúdos, ou elementos de humor. Não tem problema algum usar essas ferramentas, pois às vezes elas estão integradas na produção de conteúdo.
O negócio é que podemos ir além delas. Por exemplo, no TikTok, você escreve um texto e pode usar o "Text to Speech" (texto para voz), e no CapCut também. Mas este não é o foco da nossa aula.
O foco aqui é mostrar a melhor das ferramentas de criação de voz com IA, usada inclusive por muitas outras: o Eleven Labs. Já falamos do Eleven Labs em outras aulas do CR_IA. Ele foi criado justamente para usar IA na criação de áudio.
Vou mostrar aqui para vocês como funciona o Eleven Labs. Eu posso colocar uma mensagem qualquer, por exemplo: "Oi, estou dando uma aula sobre clonagem de voz."
O Eleven Labs tem uma versão gratuita com créditos, e a versão paga custa cerca de cinco dólares por mês, dependendo do uso.
Você escolhe a voz, por exemplo, Rebecca, e gera o áudio: "Estou dando uma aula sobre clonagem de voz." O Eleven Labs oferece emoção e qualidade, além de ser multilíngue, com 29 línguas disponíveis, identificando e falando a língua do texto inserido.
Porém, o ponto da nossa aula é clonar uma voz. Quero usar uma voz diferente para meus materiais, e é por isso que estamos aqui. O Eleven Labs é muito objetivo para isso.
Na plataforma, você tem o Text-to-Speech para textos escritos, além de outras funções como criação de voz, efeitos especiais de som e projetos maiores como audiobooks. Vale explorar essas possibilidades.
Sobre clonagem de voz, é importante um aviso antes: vamos oferecer uma alternativa às vozes prontas da plataforma, criando uma voz a partir de alguma fonte, que pode ser a voz de um cliente ou nossa própria voz. Isso é uma área perigosa da IA, podendo ter usos mal-intencionados, então é essencial usar com consciência.
No CR_IA, sempre reforçamos esse disclaimer porque muitos golpes usam clonagem de voz. Bancos alertam que alguém pode pedir um Pix usando a voz de outra pessoa clonada, por exemplo.
Imagine seu celular roubado; o ladrão pode clonar sua voz para aplicar golpes. Isso já é uma realidade e é importante educar familiares e amigos para essa questão.
Outro dia, até achei que era golpe uma conversa com uma amiga e pedi para ela mandar um vídeo para confirmar.
Mas, passado esse alerta, podemos usar a clonagem de voz para personalização de materiais, branding em campanhas, automação de mensagens em voz para influenciadores, criação de conteúdo com processos mais rápidos, dublagem em outros idiomas com a mesma voz clonada, e até usar a voz da marca.
Por exemplo, no CR_IA estamos criando conteúdos para o Jorge Aragão. Ele tem uma agenda complicada, então treinamos a IA com a voz dele para usar nos conteúdos, tudo aprovado pelo time dele, sem enganar ninguém. Assim, ele não precisa gravar tudo.
Para isso, usamos o Eleven Labs.
Dentro do Eleven Labs, há quatro formas de criar voz. A mais simples é o Voice Library, onde você usa vozes da comunidade. Alguns atores liberam suas vozes para uso, ganhando um dinheiro cada vez que suas vozes são usadas. Existem poucas vozes em português brasileiro, mas ajuda no resultado final.
Você pode filtrar vozes por língua, como português do Brasil, para narrativas e storytelling. Algumas vozes ainda não têm uma qualidade excelente, com som de fundo, mas vale a pena explorar.
Outra forma é o Voice Design, para criar vozes únicas a partir de parâmetros que você define, embora isso não seja o foco dessa aula.
Também há o Professional Cloning, réplica digital realista para criadores que funciona de forma mais profissional, mas é mais caro e não é usado no CR_IA para educação.
O Instant Voice Cloning já é muito bom e funciona muito bem.
Agora vamos clonar, porque não dá para falar de clonagem de voz sem tentar clonar a voz do Cid Moreira.
Separei um trecho de uma gravação dele lendo a Bíblia, que tem aquele clima típico, mas com música ao fundo, o que não é ideal para clonagem.
Usei a ferramenta Voice Isolator do Eleven Labs para eliminar a música e ruídos de fundo, deixando só a voz dele, com ótima qualidade.
O passo principal para clonagem é ter um arquivo de voz de pelo menos 5 minutos para garantir boa qualidade. No caso, usei 10 minutos de áudio do Cid Moreira.
Estes arquivos precisam estar dentro do limite de tamanho do Eleven Labs (10MB por arquivo), então cortei o áudio em dois arquivos menores em MP3 para enviar.
Subi os arquivos, que podem ser limpos para tirar ruído de fundo, e agora podemos escutar trechos para verificar.
Importante lembrar que não temos direito de usar a voz do Cid Moreira para fins comerciais, isso é apenas para fins educativos.
Nomeei a voz clonada de forma fictícia para evitar problemas, fingindo ter todos os direitos.
Após enviar, o treinamento leva cerca de dois minutos.
Enquanto esperamos, quero falar das próximas lives do CR_IA:
- Dia 11: "O que esperar da IA em 2025", com resumo do que aconteceu em 2024 e apostas para 2025.
- Dia 18: Ana vai colocar GPT e Claude para "brigar," com comparação das ideias de cada um para aplicar na prática e uso da IA para cumprir metas no ano novo.
Após o recesso de Natal e Ano Novo, voltamos no dia 8 de janeiro para continuar as lives.
Nova turma do CR_IA abrirá dia 4, com aulas nos dias 10 e 13. Inscreva-se na lista de espera para receber avisos.
Voltando ao Eleven Labs, o treinamento da voz do "Cid Moreira" está em andamento.
Usei o ChatGPT para criar um parágrafo curto "como se fosse o Cid Moreira falando sobre clonagem de voz":
"Boa noite, clonagem de voz. A surpreendente tecnologia que replica com precisão impressionante o timbre e a entonação de qualquer pessoa. Uma inovação fascinante, mas que desperta questões éticas profundas. Será que estamos prontos para um mundo onde nem mesmo a voz pode ser distinguida entre o real e o artificial?"
Achei que ficou muito bom, parece real, difícil distinguir se é voz real ou artificial.
O Eleven Labs tenta captar o tom e emoção do texto, então é interessante treinar a voz com diferentes emoções. Por exemplo, com Jorge Aragão pedimos para contar histórias com risadas ou outros tons.
Ele tenta descobrir o sentimento do texto para ajustar o tom.
Você pode ajustar o exagero de estilo, influenciando pausas, sotaques e expressões vocais.
Fiz testes com diferentes variações, mostrando timbre, pausas e emoções.
Depois, você pode baixar as versões em áudio WAV com qualidade superior.
Também é possível usar o Voice Changer, que permite alterar a entonação e emoção da voz clonada. Por exemplo, gravar a voz normal e aplicar efeitos como "com medo" ou "muito feliz."
O Voice Changer funciona melhor em inglês, mas em português às vezes funciona.
Apesar da IA ajudar, o acting (atuação de voz) do dublador é essencial, pois a qualidade da expressão e intonação vem da gravação original.
Por exemplo, gravei direto dizendo: "Olá, eu sou Cid Moreira, estou falando aqui do além com vocês. Como vocês estão?"
Aí você aplica com Voice Changer para ajustar emoção, volume e entonação.
Importante que todo o material de treinamento deve conter variações, para IA replicar emoções e diferentes tons. Isso melhora muito o resultado.
Enfim, esse é o básico para clonar uma voz de forma fácil usando o Eleven Labs dentro do CR_IA.
Se tiverem dúvidas, podem mandar no chat.
Sobre direitos autorais e rastreabilidade, infelizmente a origem da voz clonada não é rastreável. Se alguém vende voz clonada indevidamente, a plataforma pode remover a voz, mas se não houver indício, não tem como rastrear o uso.
É importante lembrar esse perigo e usar isso com ética.
Para finalizar, esse foi um panorama completo sobre clonagem de voz via IA e o uso do Eleven Labs que ensinamos no CR_IA, incluindo aplicações práticas, cuidados éticos e dicas para melhor uso.
Se quiserem, temos uma comunidade e mais aulas para explorar todas essas possibilidades em áudio, voz e inteligência artificial.
Espero que tenham gostado!