Blog
Para quem já sabe o básico e quer ir fundo. Aqui o assunto é como os modelos funcionam em produção: memória, roteamento, ferramentas, agentes. O lado técnico que pouca gente explica direito.
A matemática real: forward diffusion (gaussian noise progressivo), reverse process (denoising), score function ∇log p(x), SDE (Score-based Generative Modeling, Song & Ermon 2020) vs DDPM (Ho 2020) vs DDIM. Sem hand-waving.
Variational Autoencoder (VAE) para latent space compression, U-Net com cross-attention para denoising condicional, text encoder (CLIP/T5). Latent Diffusion (Rombach 2022). Por que SD opera em latent space e não em pixels.
A geração 2024-2026: SD3.5 com MMDiT (Multimodal Diffusion Transformer, Esser et al), Flux.1 da Black Forest Labs (RM Esser saiu da Stability), DiT architecture (Peebles & Xie 2023). Por que substitui U-Net.
ControlNet (Zhang & Agrawala 2023, ICCV best paper): condicionamento por canny edge, depth map, pose, scribble. Como funciona internamente (zero-conv, weight copy), múltiplos ControlNets, IP-Adapter para style transfer.
Low-Rank Adaptation aplicada a diffusion models. Kohya_ss, OneTrainer, ai-toolkit (Ostris). Datasets de 10-30 imagens, captioning automático, training loss curves, overfitting visual. SDXL vs Flux LoRA — por que Flux é mais difícil.
ComfyUI virou padrão profissional em 2024-26. Workflow JSON como artefato versionável, custom nodes em Python, ComfyUI API server, ComfyUI Deploy patterns. Por que substituiu A1111 em prod.
Estado da arte 2026: OpenAI Sora, Runway Gen-4, Kling 2.0, Google Veo 3. DiT estendido para temporal (3D attention), VAE temporal compression, image-to-video vs text-to-video. Limites práticos (8s, custo, controle).
Quando rodar em GPU própria vs usar API. Replicate (cold-start ok, marketplace), fal.ai (low-latency, websockets), RunPod (serverless GPU), Modal (Python-native). Modelos de pricing comparados, falbacks, rate limits.
Como medir "boa imagem". FID (Frechet Inception Distance), CLIP score (alinhamento texto-imagem), DPG-Bench (compositional), human pref via Elo (Imagen Arena). Por que human eval ainda manda em 2026.
Geração 3D madureceu 2024-26: TripoSR (single image → mesh em 0.5s), Stable Fast 3D, Hunyuan3D, Trellis. Pipeline: image-to-3D vs text-to-3D, mesh quality, retopology automática. Casos: AR/VR, jogos indie.