Criando narrações com emoção

Live gravada em:

Aprenda a usar o Eleven Labs v3 para transformar seus textos em narrações com emoções e entonações variadas. Descubra como aplicar comandos para direcionar o tom da fala, usar vozes personalizadas e explorar recursos para criar áudios muito mais naturais e envolventes. Essa técnica abre portas para produção de audiobooks, podcasts e conteúdos que impactam pelo sentimento e autenticidade na voz aplicada.

Atualizações da aula:

Introdução ao Eleven Labs v3:

O Eleven Labs sempre foi um dos melhores serviços para transformar texto em áudio, e sua versão v3 traz avanços importantes, especialmente na expressividade da voz. Apesar de estar em fase alfa, já demonstra uma qualidade muito superior ao V2, com maior naturalidade e emoção.

Comparação entre versões:

O V2 tinha uma narração mais robótica e direta, enquanto o V3 permite áudios mais fluidos com sentimentos, evitando aquela fala pressa e monocórdia. Isso é conseguido inserindo etiquetas no texto, indicando emoções e estilos para a voz.

Direcionamento emocional no texto:

Você pode inserir comandos entre colchetes no texto, como [Mysterious], para modificar o tom da narração em vários trechos. Além disso, o botão "Enhance Alpha" sugere automaticamente várias nuances, como pensativo, surpreso, sussurrando, adicionando realismo ao áudio.

Personalização de vozes:

Além das vozes pré-definidas, é possível usar vozes personalizadas treinadas de acordo com seu estilo. Isso facilita criar narrativas que soem realmente próximas do que você deseja transmitir.

Aplicações práticas:

Produção de audiobooks com tonalidades dramáticas ou misteriosas.
Podcasts que exigem vozes com mais emoção e variações de tom.
Conteúdos de storytelling e narração para vídeos.

Dicas extras:

Teste sotaques e acentos para deixar a narração mais personalizada (nordestino, português, carioca).
Ajuste as direções em inglês para melhores resultados com as indicações de emoção.
Explore o prompt com o ChatGPT para criar textos já formatados para o Eleven Labs.

Hora de CR_IAR!

Escolha um pequeno texto (pode ser um trecho de história ou roteiro seu) e crie uma narração usando o Eleven Labs v3. Experimente inserir pelo menos três direcionamentos emocionais diferentes pelo texto. Teste modos de voz, sotaques e personalize a fala. Compartilhe o resultado na nossa comunidade para receber feedback.

Transcrição da Aula

Olá, quero te mostrar aqui uma nova versão, uma nova forma de você fazer com a Inteligência Artificial transformar texto para áudio, com uma qualidade muito, muito boa, tá bom?

Se você não conhece o Eleven Labs, ele sempre foi, desde o começo, desde quando a gente está ensinando Inteligência Artificial aqui no Velocria, visto como uma dasmelhores plataformas, uma das melhores ferramentas para realmente transformar texto em áudio.

Só que aí, recentemente, eles lançaram a versão v3, que por enquanto ainda está em alfa, enquanto eu gravo este vídeo, ou seja, ainda tem um defeitinho aqui, outro ali, algumas coisas de teste, mas ela está impressionantemente boa.

Para isso, eu quero mostrar aqui para vocês. Então, eu vou entrar no 11labs, estou na conta paga, mas pago pouco, deve ser uns 5 dólares por mês, mais ou menos.

Vou entrar em text-to-speech, ou seja, de texto para fala. Eu fiz um texto qualquer aqui, meio para tentar mostrar algumas emoções e tal, para a gente trabalhar um pouquinho em cima dele, tá bom?

Antes eu tinha o V2, que era bom, só que faltava emoção nele, faltava um pouco do "molho". Então, vou te mostrar a versão do V2 que fiz antes:

"Eu ainda sinto o cheiro de terra molhada. Caminhava só pela estrada. A névoa sussurrava meu nome e a espinha gelou. Então vi um brinquedo de corda girar sozinho."

Ok, mas estava faltando algo, ele falava tudo direto, muito de uma vez só.

Agora, já vou rodar direto no V3. Coloquei meu texto, escolhi a mesma voz que estava usando, selecionei o modelo para usar, que é justamente o V3.

Posso até ajustar essa parte de estabilidade ou não, mas vou gerar direto para vocês verem.

Nesse primeiro momento, estou gerando apenas o texto, sem dar nenhuma indicação para ele, só para fazermos o comparativo da qualidade do áudio em si.

Às vezes ele apresenta algum defeitinho, e pode ser que você precise mandar de novo para funcionar melhor — faz parte dos testes.

Mas já dá para perceber que o V3 é bem melhor do que a versão anterior, a qualidade do áudio está muito melhor. Estou ajustando aqui para ouvir melhor.

Comparando dois exemplos com V2 e V3, o V2 ainda estava muito robótico, enquanto o V3 já traz uma emoção mais natural.

O legal do V3 é que ele é o primeiro modelo do Eleven Labs onde você pode dar direcionamentos para a voz. Por exemplo, posso colocar uma tag entre colchetes no texto com uma indicação de emoção, como [Mysterious].

Quando uso essa tag, o áudio já ganha um tom mais misterioso, mais sóbrio.

E o mais interessante: você pode colocar essas indicações em diversos momentos do texto e ainda pedir para o próprio sistema sugerir quais emoções aplicar, por meio do botão Enhance Alpha.

Ele vai automaticamente colocar várias pequenas partes como "thoughtful" (pensativo), "whispering" (sussurrando), "surprised" (surpreso), "off-tone" (fora de tom), entre outras.

Isso muda totalmente a narrativa, dando muito mais vida para o texto. Vale lembrar que dá para colocar sotaques também, como sotaque português, nordestino, carioca, entre outros, para deixar o áudio mais personalizado.

Testei e funcionou, embora às vezes ele volte automaticamente para sotaque americano, mas é possível ajustar.

Outra coisa legal é que você pode usar suas próprias vozes treinadas. Eu tenho uma voz personalizada que treinei para o estilo do Si de Ladeira, por exemplo. Mesmo que não esteja perfeita, já mostra como é possível gerar áudios com vozes próprias.

Além disso, dá para criar diálogos com várias pessoas, colocar um roteiro inteiro para várias vozes diferentes, o que é uma funcionalidade para explorar melhor em outra aula.

Quando removo as indicações e uso o botão Enhance para gerar novamente, o sistema cria diferentes formas de narrar o texto, fazendo com que você entenda melhor como o V3 interpreta o conteúdo e onde ele pode melhorar.

Eu costumo voltar para a voz Arabella, que é a que estava usando inicialmente, para comparar as variações.

Cada vez que rodamos, podemos pedir para o ChatGPT nos ajudar a criar essas indicações em colchetes, para que o áudio tenha diferentes tons, sons e estilos.

Por exemplo, podemos pedir para o ChatGPT recriar o parágrafo adicionando observações em inglês entre colchetes, pensando que queremos uma narradora contando uma história de terror com muito mistério e drama.

Ela devolve um texto muito mais completo, que podemos colar no Eleven Labs e testar.

Assim, vemos o que o V3 consegue entender ou não.

É muito legal essa interação e o resultado final.

Tem até um apoio sonoro no fundo, trazendo mais imersão.

Queria mostrar isso para vocês e pedir para que façam os testes para ver o que funciona melhor com vocês.

Mandem seus resultados e dúvidas no nosso Discord para sabermos o que vocês estão criando e o que precisam de ajuda com essa nova versão v3 do Eleven Labs.

Acredito que podemos criar muitas coisas legais com essa ferramenta. Podemos fazer narrações para conteúdos, audiobooks, podcasts, entre outras possibilidades.

Especialmente agora que temos essa forma de interação e de mostrar mais sentimentos, mesmo se tratando de inteligência artificial.

Então, até a próxima aula!

Criando narrações com emoção