Avaliação: FID, CLIP score, DPG-Bench, human eval

Como medir 'imagem boa'?

Avaliação de geração é problema aberto. O que é "boa"? Realista? Bonita? Alinhada com o prompt? Compositional? Sem viés? Sem violações de copyright? Cada pergunta tem métrica diferente — e nenhuma sozinha resolve. A indústria converge em bateria de testes: FID + CLIP score + DPG-Bench + Arena + amostragem humana.

FID — a métrica clássica

ƒ Frechet Inception Distance

FID = ||μ_r - μ_g||² + Tr(Σ_r + Σ_g - 2(Σ_r·Σ_g)^(1/2))

FeaturesCamada pool3 da Inception v3 pré-treinada em ImageNet

Tamanho mínimo de amostra~50k imagens reais + 50k geradas para FID estável

Range típicoStable Diffusion: FID 10-15 em COCO. Modelos SOTA <10.

PitfallFID prefere "média do dataset" — modelo que gera só faces "médias" pode ter FID melhor que modelo diverso

Libcleanfid (Kynkäänniemi et al, ICCV 2023) é o padrão moderno

CLIP score — alinhamento texto-imagem

import torch
from transformers import CLIPModel, CLIPProcessor

model = CLIPModel.from_pretrained('openai/clip-vit-large-patch14')
processor = CLIPProcessor.from_pretrained('openai/clip-vit-large-patch14')

inputs = processor(text=[prompt], images=[generated_image], return_tensors='pt', padding=True)
outputs = model(**inputs)
# logits_per_image é a similaridade cosseno
clip_score = outputs.logits_per_image.item()

💡

Para benchmarks publicados, use o CLIP ViT-L/14 da OpenAI como referência. Variantes (BigG, SigLIP) mudam absolute values — não compare cross-modelo sem normalizar.

DPG-Bench — compositional

Benchmark com prompts complexos categorizados em: contagem ("3 maçãs"), atributo ("uma maçã vermelha e uma azul"), relação espacial ("livro em cima da mesa"), múltiplos objetos. Avaliador automático verifica se cada constraint foi atendida.

Modelo	DPG-Bench score (2025)	FID (COCO)
SD 1.5	~67%	~12
SDXL	~74%	~9
SD3	~83%	~7
Flux.1 dev	~85%	~6
DALL·E 3	~85%	~8

ModeloSD 1.5

DPG-Bench score (2025)~67%

FID (COCO)~12

ModeloSDXL

DPG-Bench score (2025)~74%

FID (COCO)~9

ModeloSD3

DPG-Bench score (2025)~83%

FID (COCO)~7

ModeloFlux.1 dev

DPG-Bench score (2025)~85%

FID (COCO)~6

ModeloDALL·E 3

DPG-Bench score (2025)~85%

FID (COCO)~8

Arena — preferência humana em escala

Imagen Arena (e similares como Genmo Arena, Pika Arena) mostram pares de imagens cegamente. Usuário escolhe a preferida. Elo score acumula. Captura beleza/preferência que métricas estatísticas perdem.

⚠️

Arenas têm viés próprio: usuários técnicos votam diferente do público geral. Captura "preferência média dos votantes da arena", não verdade universal.

O pipeline de eval de uma release

Sanidade automáticaFID + CLIP score em set fixo de 1k prompts. Falha se cai >5%.

CompositionalDPG-Bench em CI. Catches regressões em prompt understanding.

Human spot-check50 outputs/release revisados por humano. Olhar para safety + qualidade subjetiva.

Red teamPrompts adversariais (jailbreak, NSFW, copyright). Não pode regredir.

Arena pre-releaseModelo vs versão anterior em arena privada com beta testers.

Métricas de produtoPós-release: time-to-good-image, regeneration rate, user save rate.

Como medir 'imagem boa'?

FID — a métrica clássica

ƒ Frechet Inception Distance

FID = ||μ_r - μ_g||² + Tr(Σ_r + Σ_g - 2(Σ_r·Σ_g)^(1/2))

FeaturesCamada pool3 da Inception v3 pré-treinada em ImageNet

Tamanho mínimo de amostra~50k imagens reais + 50k geradas para FID estável

Range típicoStable Diffusion: FID 10-15 em COCO. Modelos SOTA <10.

PitfallFID prefere "média do dataset" — modelo que gera só faces "médias" pode ter FID melhor que modelo diverso

Libcleanfid (Kynkäänniemi et al, ICCV 2023) é o padrão moderno

CLIP score — alinhamento texto-imagem

import torch
from transformers import CLIPModel, CLIPProcessor

model = CLIPModel.from_pretrained('openai/clip-vit-large-patch14')
processor = CLIPProcessor.from_pretrained('openai/clip-vit-large-patch14')

inputs = processor(text=[prompt], images=[generated_image], return_tensors='pt', padding=True)
outputs = model(**inputs)
# logits_per_image é a similaridade cosseno
clip_score = outputs.logits_per_image.item()

💡

Para benchmarks publicados, use o CLIP ViT-L/14 da OpenAI como referência. Variantes (BigG, SigLIP) mudam absolute values — não compare cross-modelo sem normalizar.

DPG-Bench — compositional

Modelo	DPG-Bench score (2025)	FID (COCO)
SD 1.5	~67%	~12
SDXL	~74%	~9
SD3	~83%	~7
Flux.1 dev	~85%	~6
DALL·E 3	~85%	~8

ModeloSD 1.5

DPG-Bench score (2025)~67%

FID (COCO)~12

ModeloSDXL

DPG-Bench score (2025)~74%

FID (COCO)~9

ModeloSD3

DPG-Bench score (2025)~83%

FID (COCO)~7

ModeloFlux.1 dev

DPG-Bench score (2025)~85%

FID (COCO)~6

ModeloDALL·E 3

DPG-Bench score (2025)~85%

FID (COCO)~8

Arena — preferência humana em escala

⚠️

Arenas têm viés próprio: usuários técnicos votam diferente do público geral. Captura "preferência média dos votantes da arena", não verdade universal.

O pipeline de eval de uma release

Sanidade automáticaFID + CLIP score em set fixo de 1k prompts. Falha se cai >5%.

CompositionalDPG-Bench em CI. Catches regressões em prompt understanding.

Human spot-check50 outputs/release revisados por humano. Olhar para safety + qualidade subjetiva.

Red teamPrompts adversariais (jailbreak, NSFW, copyright). Não pode regredir.

Arena pre-releaseModelo vs versão anterior em arena privada com beta testers.

Métricas de produtoPós-release: time-to-good-image, regeneration rate, user save rate.

Como medir 'imagem boa'?

FID — a métrica clássica

CLIP score — alinhamento texto-imagem

DPG-Bench — compositional

Arena — preferência humana em escala

O pipeline de eval de uma release

Próximos passos sugeridos

Discussão

Avaliação: FID, CLIP score, DPG-Bench, human eval

Como medir 'imagem boa'?

FID — a métrica clássica

CLIP score — alinhamento texto-imagem

DPG-Bench — compositional

Arena — preferência humana em escala

O pipeline de eval de uma release

Próximos passos sugeridos

Discussão