Diffusion Models & Geração Multimodal

Para quem já sabe o básico e quer ir fundo. Aqui o assunto é como os modelos funcionam em produção: memória, roteamento, ferramentas, agentes. O lado técnico que pouca gente explica direito.

10artigos

685XP total

🧮 Diffusion math: score matching e SDE/ODE

A matemática real: forward diffusion (gaussian noise progressivo), reverse process (denoising), score function ∇log p(x), SDE (Score-based Generative Modeling, Song & Ermon 2020) vs DDPM (Ho 2020) vs DDIM. Sem hand-waving.

⏱ 16 min·+80 XP

→

🏗️ VAE + U-Net: a arquitetura por trás do Stable Diffusion

Variational Autoencoder (VAE) para latent space compression, U-Net com cross-attention para denoising condicional, text encoder (CLIP/T5). Latent Diffusion (Rombach 2022). Por que SD opera em latent space e não em pixels.

⏱ 14 min·+70 XP

→

⚡ Stable Diffusion 3.5 e Flux: MMDiT e DiT por dentro

A geração 2024-2026: SD3.5 com MMDiT (Multimodal Diffusion Transformer, Esser et al), Flux.1 da Black Forest Labs (RM Esser saiu da Stability), DiT architecture (Peebles & Xie 2023). Por que substitui U-Net.

⏱ 15 min·+75 XP

→

🎛️ ControlNet: condicionamento espacial preciso

ControlNet (Zhang & Agrawala 2023, ICCV best paper): condicionamento por canny edge, depth map, pose, scribble. Como funciona internamente (zero-conv, weight copy), múltiplos ControlNets, IP-Adapter para style transfer.

⏱ 14 min·+70 XP

→

🎓 LoRA de imagem: treinar style/character em 30 min

Low-Rank Adaptation aplicada a diffusion models. Kohya_ss, OneTrainer, ai-toolkit (Ostris). Datasets de 10-30 imagens, captioning automático, training loss curves, overfitting visual. SDXL vs Flux LoRA — por que Flux é mais difícil.

⏱ 15 min·+75 XP

→

🔧 ComfyUI engineering: workflow como código

ComfyUI virou padrão profissional em 2024-26. Workflow JSON como artefato versionável, custom nodes em Python, ComfyUI API server, ComfyUI Deploy patterns. Por que substituiu A1111 em prod.

⏱ 13 min·+65 XP

→

🎬 Video generation: Sora, Runway Gen-4, Kling, Veo

Estado da arte 2026: OpenAI Sora, Runway Gen-4, Kling 2.0, Google Veo 3. DiT estendido para temporal (3D attention), VAE temporal compression, image-to-video vs text-to-video. Limites práticos (8s, custo, controle).

⏱ 14 min·+70 XP

→

🌐 APIs de geração: Replicate, fal.ai, RunPod, Modal

Quando rodar em GPU própria vs usar API. Replicate (cold-start ok, marketplace), fal.ai (low-latency, websockets), RunPod (serverless GPU), Modal (Python-native). Modelos de pricing comparados, falbacks, rate limits.

⏱ 11 min·+55 XP

→

📊 Avaliação: FID, CLIP score, DPG-Bench, human eval

Como medir "boa imagem". FID (Frechet Inception Distance), CLIP score (alinhamento texto-imagem), DPG-Bench (compositional), human pref via Elo (Imagen Arena). Por que human eval ainda manda em 2026.

⏱ 12 min·+60 XP

→

🗿 Geração 3D: TripoSR, Stable Fast 3D, mesh do prompt

Geração 3D madureceu 2024-26: TripoSR (single image → mesh em 0.5s), Stable Fast 3D, Hunyuan3D, Trellis. Pipeline: image-to-3D vs text-to-3D, mesh quality, retopology automática. Casos: AR/VR, jogos indie.

⏱ 13 min·+65 XP

→

← Voltar à home