Meio Bit » Ciência » ComfyUI: Outpainting, Inpainting, LTXV e outras novidades de IA

ComfyUI: Outpainting, Inpainting, LTXV e outras novidades de IA

ComfyUI é a interface essencial para quem quer se aprofundar no uso de IAs. Venha conhecer alguns desses usos mais avançados

ComfyUI é um nome que mete medo em muita gente que está começando a explorar o mundo da IA. À primeira vista nem de longe é amigável como o Foocus ou o Forge, e reconheço que sua interface baseada em nós pode ser assustadora.

Um Workflow típico do ComfyUI. por quê alguém teria medo disso? (Brincadeira, esse é sinistro mesmo) (Crédito: Reprodução/ComfyUI)

Na prática ela é bem intuitiva, ou ao menos faz sentido, e é essencial que você perca esse medo, pois o ComfyUI é essencial para quem quer estar na ponta dessa nova e impressionante tecnologia de IA.

O ComfyUI, disponível no GitHub oficial aqui, é o ambiente mais rápido, com melhor aproveitamento de memória, e com uma velocidade de implementação lendária, houve casos em que novidades eram portadas para ele em algumas horas.

Um workflow mais realista, simples de entender (Crédito: Reprodução/ComfyUI)

Com o ComfyUI você amplia as capacidades através de módulos, instalados pelo gerenciador interno ou manualmente, usando git. E aqui o bicho pega. Para usar o ComfyUI direito, você precisa ter familiaridade com Python, Conda, ambientes virtuais, Git e linha de comando. Não tem como escapar.

Se quiser uma instalação mais simples, pode usar o Pinokio, um gerenciador de instalações de IA, mas muita coisa ainda terá que ser feita manualmente. Não há como fugir, estamos usando software que está sendo escrito e atualizado diariamente.

Os Avanços Recentes

Nos últimos meses tivemos modelos poderosos como o Flux, que tem uma capacidade de entendimento de linguagem natural muito superior ao Stable Diffusion XL, a desvantagem é que é um modelo bem grande, o flux1-dev ocupa 23GB. Outro problema era que o Flux não tinha acesso a ferramentas como Controlnets, usadas para direcionar estilo e movimento, mas agora essas ferramentas já estão adaptadas.

A Black Forest Labs lançou o FLUX.1 Tools, um conjunto de modelos e ferramentas extremamente poderoso para o Flux, a principal é o Inpainting / Outpainting.

Inpainting / Outpainting

A rigor essas ferramentas existem desde o tempo do Stable Diffusion 1.5, mas associadas ao Flux, se tornaram extremamente poderosas.

O Inpainting é uma ferramenta onde você marca uma área de uma imagem, criando uma máscara. Em um prompt descreve uma alteração desejada. Você pode remover objetos e deixar a IA se virar para refazer o fundo, pode alterar parte da cena incluindo ou modificando elementos. Com o Flux você pode descrever em detalhes as alterações que deseja.

Neste exemplo de Inpainting, a área do corpo de Putin foi mascarada, e um prompt descrevendo uma roupa de palhaço foi usada. A IA cuidou de mesclar tudo mantendo o estilo (Crédito: Sasha Mordovets/Getty Images/Flux)

Aqui foi usado o Inpainting com o comando de apagar o elemento (no bom sentido, calma, ABIN). Nenhum prompt foi usado para descrever o cenário atrás dos elementos apagados, a IA deduziu tudo sozinha (Crédito: Ricardo Stuckert/Reuters/Flux)

Note que o Inpainting do Flux é inteligente o bastante para criar o elemento novo seguindo o mesmo estilo do resto da imagem. Como ele faz isso? Matemática. Se você quiser mais detalhes, só ler o paper LatentPaint: Image Inpainting in Latent Space with Diffusion Models (cuidado, PDF).

Aqui o algoritmo principal. Infelizmente estou com prazo apertado então não dá para explicar como ele funciona.

Tão óbvio que seria insultar a inteligência de você, leitor, se eu tentasse explicar (Crédito: IEEE Xplore/acesso aberto)

Já Outpainting é o oposto. Você não está modificando áreas dentro da imagem, mas fora. Você (ou melhor, o Flux) vai analisar a imagem e tentar criar o que não existe. Sim, a IA vai imaginar partes inexistentes da imagem.

O Outpainting pode ser auxiliado por um prompt, ou deixado totalmente a cargo da IA, que sem nenhuma informação além da própria imagem, adicionará detalhes a ela. Vários usuários já relataram que o Outpainting do Flux.1 é mais poderoso que o Content Aware do Photoshop.

Nos exemplos abaixo, as imagens foram geradas a partir das fotos originais dentro da moldura. Nenhum prompt de apoio foi usado.

Crédito: Steve McCurry/National Geographic Partners/Disney/Flux

Crédito: Art Institute of Chicago/Flux

Crédito: Getty Images/Flux

Crédito: Neil Leifer/Sports Illustrated/Flux

Crédito: Alfred Eisenstaedt/LIFE/Dotdash Meredith/Flux

LTXV

No começo de 2023 o Stable Diffusion impressionava com geração de imagens, mas um novo modelo chamou a atenção de todo mundo: O ModelScope era capaz de gerar vídeo, um problema matemático bem mais complexo que imagens únicas.

Claro, ele gerava vídeos em resolução de 256x256 e no máximo três segundos, 15 quadros por segundo. A qualidade, bem, era atroz, como demonstrado pelo vídeo que representou a tecnologia, “Will Smith comendo espaguete”.

"Ah, sweet, sweet man-made horrors beyond my comprehension."

De lá para cá surgiram vários modelos proprietários, gerando vídeos de melhor qualidade, mas rodando em data centres, em serviços pagos ou oferecendo acesso limitado, como o Runaway ou o Pika labs. Por bastante tempo o vídeo ficou fora do alcance do Open Source, até que a Stability AI lançou o Stable Video Diffusion, um modelo bem mais avançado que o ModelScope, e Open Source.

O SVD tinha e ainda tem limitações, ele só é consistente em vídeos bem curtos, menos de 30 frames, e é bem pesado e lento. Outros modelos como Mochi e CogXVideo foram liberados, mas carecem do mesmo problema. Rodar esses modelos localmente é um exercício de frustração, um vídeo bem curto pode levar 40 minutos, na minha GeForce RTX 3060.

O LTXV, da Lightricks é um modelo revolucionário, que mudou a forma de gerar vídeo em GPUs domésticas. Lançado algumas semanas atrás, ele roda até mesmo em GPUs com apenas 8GB de VRAM, e roda muito rápido. Um vídeo de 25 fps que no Stable Video Diffusion minha GPU levaria 4 minutos para ser gerado, no LTXV leva menos de um minuto. Em 5 minutos ele consegue gerar um vídeo de 137 quadros. Com consistência, até 278.

Aqui Will Smith comendo espaguete, feito em meu PC. Não houve interpolação ou qualquer tipo de manipulação, é o vídeo gerado, em 24 fps nativos.

No ComfyUI o LTXV é tão eficiente que em GPUs de gente grande ele consegue gerar vídeo em tempo real.

É acertado dizer que a qualidade final nem sempre é tão boa quanto os modelos comerciais, mas com a velocidade do LTXV, é fácil gerar várias versões até chegar ao resultado desejado.

Alguns exemplos de vídeos gerados com o LTXV:

Conclusão e Recursos:

O ComfyUI é A ferramenta para quem quer aprender a usar IA a sério. A curva de aprendizado é bem menos íngreme do que aparenta, mas há bastantes pré-requisitos, como conhecimentos de programação, Python, lógica (ter aquário em casa é essencial) e linha de comando.

Se você tem o leve grau de insanidade necessário para lidar com isso, se está acostumado a sofrer de síndrome de impostor e achar impossível resolver um problema, apenas para no dia seguinte matar o danado em cinco minutos, caia dentro.

Aqui alguns links úteis:

Leia mais sobre: AI, ComfyUI, IA, Inteligência Artificial, stable diffusion, Telecurso IA.