Olá, quero te mostrar aqui uma nova versão, uma nova forma de você fazer com a Inteligência Artificial transformar texto para áudio, com uma qualidade muito, muito boa, tá bom?
Se você não conhece o Eleven Labs, ele sempre foi, desde o começo, desde quando a gente está ensinando Inteligência Artificial aqui no Velocria, visto como uma dasmelhores plataformas, uma das melhores ferramentas para realmente transformar texto em áudio.
Só que aí, recentemente, eles lançaram a versão v3, que por enquanto ainda está em alfa, enquanto eu gravo este vídeo, ou seja, ainda tem um defeitinho aqui, outro ali, algumas coisas de teste, mas ela está impressionantemente boa.
Para isso, eu quero mostrar aqui para vocês. Então, eu vou entrar no 11labs, estou na conta paga, mas pago pouco, deve ser uns 5 dólares por mês, mais ou menos.
Vou entrar em text-to-speech, ou seja, de texto para fala. Eu fiz um texto qualquer aqui, meio para tentar mostrar algumas emoções e tal, para a gente trabalhar um pouquinho em cima dele, tá bom?
Antes eu tinha o V2, que era bom, só que faltava emoção nele, faltava um pouco do "molho". Então, vou te mostrar a versão do V2 que fiz antes:
"Eu ainda sinto o cheiro de terra molhada. Caminhava só pela estrada. A névoa sussurrava meu nome e a espinha gelou. Então vi um brinquedo de corda girar sozinho."
Ok, mas estava faltando algo, ele falava tudo direto, muito de uma vez só.
Agora, já vou rodar direto no V3. Coloquei meu texto, escolhi a mesma voz que estava usando, selecionei o modelo para usar, que é justamente o V3.
Posso até ajustar essa parte de estabilidade ou não, mas vou gerar direto para vocês verem.
Nesse primeiro momento, estou gerando apenas o texto, sem dar nenhuma indicação para ele, só para fazermos o comparativo da qualidade do áudio em si.
Às vezes ele apresenta algum defeitinho, e pode ser que você precise mandar de novo para funcionar melhor — faz parte dos testes.
Mas já dá para perceber que o V3 é bem melhor do que a versão anterior, a qualidade do áudio está muito melhor. Estou ajustando aqui para ouvir melhor.
Comparando dois exemplos com V2 e V3, o V2 ainda estava muito robótico, enquanto o V3 já traz uma emoção mais natural.
O legal do V3 é que ele é o primeiro modelo do Eleven Labs onde você pode dar direcionamentos para a voz. Por exemplo, posso colocar uma tag entre colchetes no texto com uma indicação de emoção, como [Mysterious].
Quando uso essa tag, o áudio já ganha um tom mais misterioso, mais sóbrio.
E o mais interessante: você pode colocar essas indicações em diversos momentos do texto e ainda pedir para o próprio sistema sugerir quais emoções aplicar, por meio do botão Enhance Alpha.
Ele vai automaticamente colocar várias pequenas partes como "thoughtful" (pensativo), "whispering" (sussurrando), "surprised" (surpreso), "off-tone" (fora de tom), entre outras.
Isso muda totalmente a narrativa, dando muito mais vida para o texto. Vale lembrar que dá para colocar sotaques também, como sotaque português, nordestino, carioca, entre outros, para deixar o áudio mais personalizado.
Testei e funcionou, embora às vezes ele volte automaticamente para sotaque americano, mas é possível ajustar.
Outra coisa legal é que você pode usar suas próprias vozes treinadas. Eu tenho uma voz personalizada que treinei para o estilo do Si de Ladeira, por exemplo. Mesmo que não esteja perfeita, já mostra como é possível gerar áudios com vozes próprias.
Além disso, dá para criar diálogos com várias pessoas, colocar um roteiro inteiro para várias vozes diferentes, o que é uma funcionalidade para explorar melhor em outra aula.
Quando removo as indicações e uso o botão Enhance para gerar novamente, o sistema cria diferentes formas de narrar o texto, fazendo com que você entenda melhor como o V3 interpreta o conteúdo e onde ele pode melhorar.
Eu costumo voltar para a voz Arabella, que é a que estava usando inicialmente, para comparar as variações.
Cada vez que rodamos, podemos pedir para o ChatGPT nos ajudar a criar essas indicações em colchetes, para que o áudio tenha diferentes tons, sons e estilos.
Por exemplo, podemos pedir para o ChatGPT recriar o parágrafo adicionando observações em inglês entre colchetes, pensando que queremos uma narradora contando uma história de terror com muito mistério e drama.
Ela devolve um texto muito mais completo, que podemos colar no Eleven Labs e testar.
Assim, vemos o que o V3 consegue entender ou não.
É muito legal essa interação e o resultado final.
Tem até um apoio sonoro no fundo, trazendo mais imersão.
Queria mostrar isso para vocês e pedir para que façam os testes para ver o que funciona melhor com vocês.
Mandem seus resultados e dúvidas no nosso Discord para sabermos o que vocês estão criando e o que precisam de ajuda com essa nova versão v3 do Eleven Labs.
Acredito que podemos criar muitas coisas legais com essa ferramenta. Podemos fazer narrações para conteúdos, audiobooks, podcasts, entre outras possibilidades.
Especialmente agora que temos essa forma de interação e de mostrar mais sentimentos, mesmo se tratando de inteligência artificial.
Então, até a próxima aula!