Conheça as principais ferramentas de IA para criação de imagens e entenda como elas evoluíram nos últimos anos. Entenda como usar prompts para gerar imagens, ajustar detalhes e criar universos visuais para marcas e projetos pessoais. Veja exemplos práticos de aplicação, desde a criação de campanhas até edição de fotos e vídeos com IAs abertas e proprietárias.
Há várias ferramentas no mercado hoje, como Midjourney, Higgsfield, Visual Electric, Flux, Firefly e ChatGPT. Cada uma tem características e aplicações específicas, e a escolha da ferramenta ideal depende do seu objetivo e conhecimento da plataforma. Do esquema borrado da primeira versão do MidJourney em 2022 até imagens quase perfeitas da versão atual, a qualidade melhorou muito em poucos anos. Esse avanço possibilita o uso profissional das imagens geradas.
Mais do que criar imagens isoladas, as IAs ajudam a construir uma identidade visual forte e consistente para marcas, campanhas ou projetos pessoais. Exemplos incluem estilos minimalistas, gráficos e misturas de 2D e 3D.
Importante: não existe uma “melhor” IA para imagens, assim como não existe a melhor câmera fotográfica. O segredo está em dominar e se aprofundar na plataforma escolhida para extrair o melhor resultado, assim como domina lentes e configurações na fotografia.
Crie uma identidade visual para uma marca fictícia usando seu gerador de imagens favorito. Utilize prompts curtos para gerar imagens que sigam um estilo consistente e depois experimente editar detalhes finos. Preste atenção no seu processo e nos resultados, para comparar a coerência visual das imagens geradas. Compartilhe o resultado final aqui com a gente!
Bora falar sobre criação de imagem utilizando inteligência artificial com essa aula que é o termômetro das IAs de criação de imagem.
A gente vai ter uma visão geral de quais são as principais plataformas, do que é possível ser feito, um pouco da evolução, e algo bem introdutório para você que quer começar a criar imagem. Mas para você que já está criando, vale a pena dar uma olhada também, porque a gente vai falar das ferramentas que estão mais em alta e discutir um pouco sobre para onde as coisas estão indo e o que é possível ser feito.
Falando das plataformas em si, a gente vai explorar um pouco do MidJourney, do Higgsfield, do Visual Electric, do Flux, do Firefly e do ChatGPT. Tem muito mais do que isso, mas essas são as que eu acho que fazem mais sentido para você começar a criar imagem ou evoluir a partir disso. E falando em evolução, eu sempre gosto de começar essas aulas mostrando como as plataformas vêm evoluindo. Então aqui peguei um prompt simples de exemplo, que é um homem brasileiro jogando num quarto gamer vestindo um headset com luzes azul e verde em neon. E aqui está um pouco de como esse tipo de imagem evoluiu.
Isso aqui é o MidJourney da V1 até a V7. Lembrando que a V1 é de 2022. Então a gente está falando de uma evolução de menos de três anos. A gente foi desse grande esboço aqui, que mal dava para entender do que se tratava, e a ideia foi evoluindo. Se for ver na V2, na V3, dá pra entender a ideia, mas é impossível utilizar a imagem. A partir da V4 você fala: "pô, vai dar pra chegar." Na V5 a gente de fato começa a usar as imagens de IA profissionalmente. Na V6 acho que chegamos num nível bastante considerável, difícil de identificar se é real ou não. E o V7 a gente já está num lugar que o céu é o limite, dependendo da forma como você estrutura seus prompts, seu workflow, você chega num resultado bem próximo da perfeição.
Um outro exemplo é o Dall-E, a IA da OpenAI. Se você pedisse para ele criar uma imagem de uma mulher palestrando no TED Talks em 2022, esse era o resultado. E o Flux hoje, se você pedir esse mesmo prompt, ele chega nesse resultado. Na verdade, no passado já era possível chegar um pouco perto, principalmente se você fizer o upscale.
O principal ponto das IAs de imagem, mais do que ficar tentando criar pessoas e realismo, é a possibilidade que a gente tem de criar universos visuais. Então, por exemplo, o MidJourney é um dos principais nesse lugar: mais do que criar uma imagem bonita, você consegue criar um universo de marca. Aqui são alguns exemplos de algo mais numa linha de realismo, com pouco de minimalismo, uma delicadeza; aqui algo mais gráfico, meio na pegada de Key Visual, onde a gente tem bastante interferência de cor e uma unidade muito grande — por exemplo, criar uma campanha, uma identidade de marca. Aqui um exemplo misturando 2D com 3D. Eu gosto bastante dessa estética porque ela causa essa estranheza de "será que isso é 2D ou será que isso é 3D?" Alguns exemplos do que é possível ser feito com MidJourney, principalmente em termos de unidade.
Queria compartilhar também um projeto que eu fiz para uma consultoria, onde eles queriam criar um baralho de tarot e precisavam de muitas imagens para ilustrar a apresentação. Aí eu criei um style reference, um guia de estilo para criar diversos tipos de imagem. Aqui estão vários exemplos. Todas essas imagens foram criadas com duas ou três palavras, porque toda essa estética foi pré-estabelecida num formato de style reference que a gente vai falar em uma outra aula. Só vou passar um pouco por cima aqui, mas o ponto todo hoje é criar universos visuais e universos estéticos para uma marca. Isso é uma das coisas mais legais que IA pode fazer para você. Esse vídeo aqui é gigantesco, eu gosto bastante pela unidade que trouxe, e o cliente também ficou bastante feliz.
Outra ferramenta, Visual Electric, falo bastante dela nos meus vídeos e acho que ela traz um olhar mais profissional para o design. Inclusive, se você está acostumado a utilizar ferramentas como Adobe Illustrator, Photoshop em design, você vai se dar muito bem com o Visual Electric. Tem um vídeo que eu falo bastante sobre ela. Foi até um curso gratuito que está aqui no CR_IA, que dá uma visão geral da plataforma melhor do que eu poderia falar aqui. E uma das coisas mais legais: se você gosta dessa interface tipo Canva, meio aberta, num formato dashboard, o Visual Electric é maravilhoso. Todas as imagens que eu usei naquele vídeo estão aqui nesse Canva, então o processo criativo nesse formato de dashboard é bem legal e super fluido. Você consegue visualizar toda a estética do seu projeto, evoluindo e vendo se as coisas têm unidade. Principalmente para quem busca uma IA para usar profissionalmente na criação de campanhas, identidade, etc. O Visual Electric, sem dúvida, é uma boa alternativa. Depois a gente vai falar mais dele, tem uma aula aqui, tem um curso básico de Visual Electric onde você entende todos os detalhes.
Uma das coisas mais recentes que o Visual Electric tem é a possibilidade de criação de vídeo. Hoje ele está funcionando quase como um marketplace de imagem e vídeo, onde você pode usar o vo3, que é o Kling, e também o Flux Kontext — que é uma outra IA que eu já vou falar mais e que está dentro do Visual Electric. Vou mostrar um vídeo para você também. A função que eu acabei de mostrar é o Flux Kontext, que é outra inteligência artificial de imagem, Open Source, ou seja, todo mundo pode utilizar o Flux Kontext em outras plataformas. Então ele está presente em diversos lugares. Existem vários Flux: Flux 1, Flux 1.1, Flux Pro, Flux Dev. Flux Kontext é a última versão, no momento, principalmente voltada à alteração dessas imagens.
Muitos modelos que a gente conhece hoje, na verdade, são o Flux. Vou deixar passando um vídeo aqui de diversos exemplos do Flux. O próprio Higgsfield utiliza o Flux, o Krea utiliza o Flux, o Visual Electric está utilizando o Flux. Então hoje ele é esse modelo básico justamente por ser Open Source, e você consegue utilizá-lo em diversas plataformas. Tem até um desenho aqui que a gente fez para tentar mostrar um pouco do que é possível ser feito com ele.
O Flux é uma plataforma Open Source de IA, ou seja, você pode utilizar o código deles em outros produtos, e por isso diversas IAs de imagem são o Flux com um fine tune para deixar ele mais específico. A qualidade hoje do Flux é bem interessante, não à toa diversas plataformas utilizam. Você consegue ter uma versatilidade muito grande para diversos estilos, e por ela ser Open Source, você consegue refinar para o estilo que quiser. O Kontext que a gente viu ali no vídeo do Visual Electric é no momento a melhor IA para você ajustar suas imagens. Você consegue fazer essas alterações sem ter tanta distorção. Ainda tem distorção, é impossível não ter, mas muito menos do que ferramentas como o ChatGPT.
Se você está buscando uma alteração sutil na sua imagem, hoje o Flux Kontext é a melhor alternativa, melhor até que o Photoshop, que o ChatGPT e o próprio MidJourney para ajustar coisas específicas. Esse momento tem sido minha favorita. Como eu mencionei, o Flux está em diversos lugares, então se você pegar plataformas como LTX, OpenArt, InnerAI, Tess, Higgsfield, Krea, Visual Electric, eles usam Flux como base. Isso é interessante porque quando o Flux evoluir, todas essas evoluem ao mesmo tempo. Você também pode utilizar o Flux no Confy ou em plataformas generalistas e agregadoras como Fal, Replicate e Hugging Face.
Seguindo aqui o tour das nossas plataformas, vamos falar do ChatGPT, a mais conhecida para criação de imagem. Eu acho que talvez o grande boom da IA esse ano tenha sido quando o ChatGPT lançou seu modelo de imagem. Com certeza vocês já devem ter visto exemplos ou ter utilizado.
Tem um vídeo onde eu mostro várias possibilidades, e depois a gente vai detalhar aqui. Então, o ChatGPT para criação de imagem é de longe a mais fácil de você utilizar. Aqui eu coloquei uma listinha de formas diferentes de usar que eu mostrei rapidamente no vídeo: text to image; image to image; texto mais referência para imagem; texto mais draft, um rabisco para imagem.
O text to image é muito simples: você escreve seu prompt de forma natural, não precisa ser técnico. Você pode evoluir junto com a IA. A gente vai falar mais sobre isso numa aula de prompt, que já está relacionada aqui. Image to image é você colocar uma imagem sua e pedir para ele fazer num traço diferente. O prompt aqui, uma foto minha da Vic, foi: "um casal na versão Lego", "esse casal na versão Fortnite", "esse casal na versão massinha", "esse casal na versão desenho de criança". Ele faz e mantém uma consistência de detalhes que é bem impressionante. Se a gente pensar alguns meses atrás, seria muito difícil você ter uma IA que consegue fazer o crachá, que entende cada um dos detalhes e que também tem uma capacidade de interpretação para, algumas vezes, mudar o lado, por exemplo, da bolsa — ele mudou porque é melhor que fique assim —, mas ele conseguiu fazer todos os detalhes.
Eu gosto bastante desse exemplo porque é uma foto complexa e ele consegue lidar com essa complexidade. Outro exemplo é trabalhar com imagem para imagem, mudando completamente. Aqui mais um exemplo de imagem para imagem. Dessa vez eu deixei o prompt para você, caso queira trocar o estilo da sua imagem. Esse é um prompt base que pode ajudar bastante:
Crie uma imagem no formato 9:16, no [estilo. exemplo: Minecraft], inspirado nas características e ambiente em que este homem se encontra.
Aí eu descrevo melhor. Funciona se eu só colocar a imagem e falar "faz no estilo Minecraft", funciona, mas colocar essas instruções a mais vai te ajudar a manter a unidade. Eu queria uma imagem com o efeito Minecraft, na mesma proporção, então esse tipo de prompt ajuda bastante nisso. Outro exemplo de imagem para imagem, dessa vez pedindo para ambientar o produto numa outra foto. O que a gente consegue ver é o quão incrível é e o quão ainda tem detalhes que, se você for fazer para um cliente, para uma campanha específica que precisa ser perfeita, você vai ter que ajustar na mão.
Se você olhar bem no detalhe, você bate o olho e fala "perfeito", mas se olhar com mais atenção, vai ver que está distorcido ali um pouco da tipografia, ele mexe um pouco na abelha. Nesse caso, você teria que substituir depois o rótulo pelo rótulo verdadeiro, mas a qualidade de imagem e iluminação é impressionante. Isso aqui foi o primeiro resultado que eu coloquei. Um exemplo de usar a referência para a imagem, que é o que eu mais gosto, que é você compor quase um moodboard. Eu queria fazer uma imagem de uma mão entregando um Dolly Guaraná para a mão do Dolly. Mandei uma foto do Dolly, uma foto do Guaraná e uma imagem referência que não tem nada a ver, mas tem um pouco dessa ideia. Aí coloquei esse prompt:
"Crie uma arte inspirada nessa imagem que tem as duas mãos e lata com fundo verde, no lugar da lata coloca uma garrafa do Dolly, uma mão humana e a outra verde com luva branca igual do personagem."
É uma instrução que você daria para um humano, e ele consegue fazer. O primeiro resultado foi esse aqui.
Aqui um exemplo de draft com instrução. Esse foi bem impressionante quando saiu, eu falei: "não é possível que ele vai conseguir fazer." Aqui está um desenho feito no próprio Instagram Stories, onde a gente colocou o gato, uma passadora e as instruções, porque não dá para entender bem que o ferro está caindo, ele parece que está voando ou o gato em cima da tábua de passar. Colocar essas instruções em texto ajuda bastante o ChatGPT a entender e fazer resultados como esse.
Um outro exemplo que eu fiz, inclusive junto com o Fe, é algo bem complexo. Olha a bagunça que está isso aqui: eu queria fazer uma thumb para YouTube onde a gente tem um cachorro com coleira escrito "Panqueca", ele está pulando de uma janela. Tem uma parede de tijolos meio desgastada, dentro da casa tem uma criança preocupada porque o cachorro está fugindo. É difícil para um humano entender, será que a IA consegue? Consegue. A gente fez duas versões até, uma realista e uma no estilo Pixar, só mudando o tipo de imagem que a gente gostaria. Acho que funciona super bem. Isso aqui é maravilhoso, principalmente para quem cria thumb, capa, esse tipo de coisa. Dá para fazer muita coisa utilizando as imagens como referência.
Para fechar, falar um pouco das imperfeições do ChatGPT para imagem, que é o quanto ele levemente altera sua foto. Isso aqui é um teste que um designer fez, colocando cem vezes a mesma foto e pedindo para ele manter a mesma foto. Tipo assim, o prompt era "mantenha essa imagem e melhore a resolução", por exemplo.Cada vez o ChatGPT ia alterando mais, até o The Rock se transformar em algo completamente diferente. A cada geração ele vai perdendo um pouco de qualidade e consistência e vira algo muito bizarro. Óbvio que você nunca vai fazer isso, mas às vezes, por exemplo, você vai alterar três vezes uma imagem sua, e já vai ter um step que te deixa um pouco diferente.
Então, essa não é necessariamente a melhor inteligência artificial de imagem para isso. A melhor para você conseguir fazer cenas com seu rosto é criando um LoRA, que também tem uma aula específica disso.
Então, essas são as nossas favoritas do momento: ChatGPT, Flux, Visual Electric e MidJourney. Lembrando que o Flux está em diversas plataformas, tipo Krea, Freepik, Higgsfield; eles são Flux. Coloquei ali de forma geral porque ele tem diversas personalizações. Aqui a gente colocou a mesma imagem sendo gerada por IAs diferentes para fechar com um pensamento que é super importante: o entendimento de que as IAs têm estilos de imagem.
Quando você olha para as plataformas que estão ali — MidJourney, Higgsfield, Visual Electric, Flux, Firefly, ChatGPT, tenho Ideogram também e várias outras que estão ali no estado da arte da IA —, você me pergunta: "Paulo, qual que é a melhor?" Vou te falar: depende. É a mesma coisa de você me perguntar qual é a melhor câmera fotográfica. Eu até faço uma brincadeira de colocar junto — e não estou dizendo que o Visual Electric é X ou que o Firefly é o Nikon —, é muito mais uma questão de entender que a melhor câmera tem a ver com a câmera que o fotógrafo domina melhor, com o olhar, a lente, o filme e uma série de outros fatores.
E é meio a mesma coisa aqui. O MidJourney é bom, mas você tem que entender de style reference, você tem que saber utilizar a plataforma da melhor maneira. Mesma coisa para o Visual Electric. Então pense em uma plataforma, dá uma olhada, essa foi uma visão geral, deu para ver um pouco do comportamento de cada uma delas. Dá para você explorar mais: pega uma delas e se aprofunda mais. É importante testar, conhecer, mas eu acho que é mais importante hoje se aprofundar em uma dessas plataformas.
Se você quer criar imagem com altíssima qualidade, precisa conhecer bem o que está operando, assim como uma câmera fotográfica. Esse é um pouco do que eu acredito. Foi o que eu fiz para conseguir criar boas imagens tanto no MidJourney quanto no Visual Electric, que são as duas IAs que eu dediquei mais tempo para aprender, e com isso consegui fazer trabalho de melhor qualidade.
E é isso. Temos muitas aulas de imagem por aqui, desde deep-dive em ferramentas como MidJourney, Visual Electric e ChatGPT, até processos específicos como criação de Lora, entre outras coisas.
Espero que você tenha curtido e é isso.