“GPT-4 tem 86% no MMLU” — e dai? Essa metrica ajuda a escolher o modelo certo para o seu caso de uso? Provavelmente nao. Neste artigo, voce vai entender os benchmarks que existem, seus limites, e como montar uma avaliacao propria que realmente informa decisoes.

Os benchmarks mais relevantes

Benchmark	O que mede	Como funciona	Limitacao
MMLU	Conhecimento geral (57 dominios)	Multiple choice: historia, bio, fisica, direito, etc.	Mede reconhecimento, nao raciocinio profundo
HumanEval	Geracao de codigo Python	164 problemas de programacao; mede pass@k	Problemas simples; nao reflete coding real
SWE-bench	Resolucao de issues reais	Issues de repos open-source; verifica se patch passa nos testes	Padrao ouro para coding; caro de rodar
GPQA	Raciocinio expert-level	Perguntas de PhD em fisica, bio, quimica	Muito dificil; humanos experts acertam ~65%
LMArena (Chatbot Arena)	Preferencia humana	Humanos comparam respostas de 2 modelos (blind)	Sujeito a vieses (prefere respostas longas)
MATH	Raciocinio matematico	Problemas de competicao matematica	Modelos modernos ja saturam (~90%+)
ARC-AGI	Raciocinio abstrato / fluida	Pattern matching visual com regras nao vistas	Controverso; talvez nao mexa o que promete

BenchmarkMMLU

O que medeConhecimento geral (57 dominios)

Como funcionaMultiple choice: historia, bio, fisica, direito, etc.

LimitacaoMede reconhecimento, nao raciocinio profundo

BenchmarkHumanEval

O que medeGeracao de codigo Python

Como funciona164 problemas de programacao; mede pass@k

LimitacaoProblemas simples; nao reflete coding real

BenchmarkSWE-bench

O que medeResolucao de issues reais

Como funcionaIssues de repos open-source; verifica se patch passa nos testes

LimitacaoPadrao ouro para coding; caro de rodar

BenchmarkGPQA

O que medeRaciocinio expert-level

Como funcionaPerguntas de PhD em fisica, bio, quimica

LimitacaoMuito dificil; humanos experts acertam ~65%

BenchmarkLMArena (Chatbot Arena)

O que medePreferencia humana

Como funcionaHumanos comparam respostas de 2 modelos (blind)

LimitacaoSujeito a vieses (prefere respostas longas)

BenchmarkMATH

O que medeRaciocinio matematico

Como funcionaProblemas de competicao matematica

LimitacaoModelos modernos ja saturam (~90%+)

BenchmarkARC-AGI

O que medeRaciocinio abstrato / fluida

Como funcionaPattern matching visual com regras nao vistas

LimitacaoControverso; talvez nao mexa o que promete

Pitfalls de benchmarks publicos

Pitfall	Exemplo	Impacto
Benchmark overfitting	Treinar o modelo em dados similares ao benchmark	Score alto no benchmark, performance real mediocre
Data contamination	Perguntas do benchmark vazam no dataset de treino	Modelo "decorou" respostas; score inflado
Cherry-picking	Empresa reporta so benchmarks onde vai bem	Visao distorcida das capacidades reais
Metricas agregadas	Media de 57 dominios esconde que modelo e pessimo em matematica	Decisao baseada em numero que nao reflete seu caso
Saturacao	MMLU e HumanEval ja estao >90% para modelos top	Benchmark nao diferencia mais entre modelos top

PitfallBenchmark overfitting

ExemploTreinar o modelo em dados similares ao benchmark

ImpactoScore alto no benchmark, performance real mediocre

PitfallData contamination

ExemploPerguntas do benchmark vazam no dataset de treino

ImpactoModelo "decorou" respostas; score inflado

PitfallCherry-picking

ExemploEmpresa reporta so benchmarks onde vai bem

ImpactoVisao distorcida das capacidades reais

PitfallMetricas agregadas

ExemploMedia de 57 dominios esconde que modelo e pessimo em matematica

ImpactoDecisao baseada em numero que nao reflete seu caso

PitfallSaturacao

ExemploMMLU e HumanEval ja estao >90% para modelos top

ImpactoBenchmark nao diferencia mais entre modelos top

⚠️

Regra de ouro: benchmarks publicos sao triagem, nao decisao. Se dois modelos tem 85% vs 87% no MMLU, a diferenca e irrelevante para o seu chatbot de atendimento. O que importa: como eles performam no seu dominio, com seus dados, para seus usuarios.

Avaliacao propria: o que realmente importa

🗺️ Montando seu eval pipeline

1. Coletar exemplos representativos

▼

2. Definir rubrica de qualidade

▼

3. Gerar respostas de cada modelo

▼

4. Avaliar com LLM-as-Judge + humanos

▼

5. Comparar custo, latencia e qualidade

LLM-as-Judge: automatizando avaliacao

Avaliar 1000 respostas manualmente e impraticavel. LLM-as-Judge usa um modelo forte para avaliar outputs de modelos mais fracos:

# LLM-as-Judge simplificado
import anthropic

client = anthropic.Anthropic()

rubric = """
Avalie a resposta do modelo nos seguintes criterios (1-5):
1. Corretude factual: a resposta esta correta?
2. Relevancia: responde a pergunta feita?
3. Completude: cobre os pontos importantes?
4. Clareza: e clara e bem organizada?
5. Concisao: e concisa sem ser superficial?

Retorne JSON: {"scores": {"corretude": N, ...}, "total": N, "reasoning": "..."}
"""

def evaluate(question: str, answer: str) -> dict:
    response = client.messages.create(
        model="claude-opus-4-20250514",  # juiz forte
        max_tokens=1024,
        messages=[{
            "role": "user",
            "content": f"""
{rubric}

Pergunta: {question}
Resposta do modelo: {answer}
"""
        }]
    )
    return parse_json(response.content[0].text)

# Rodar em batch
results_a = [evaluate(q, model_a(q)) for q in test_set]
results_b = [evaluate(q, model_b(q)) for q in test_set]
avg_a = sum(r["total"] for r in results_a) / len(results_a)
avg_b = sum(r["total"] for r in results_b) / len(results_b)

Vies do LLM-as-Judge	Descricao	Mitigacao
Position bias	Prefere a primeira resposta em comparacoes A vs B	Rodar 2x invertendo a ordem; media dos resultados
Verbosity bias	Prefere respostas mais longas mesmo quando menos precisas	Incluir "concisao" como criterio explicito na rubrica
Self-favoritism	Modelo prefere outputs do proprio modelo	Usar juiz de familia diferente (Claude julga GPT e vice-versa)
Calibracao	Scores absolutos variam entre execucoes	Calibrar contra julgamentos humanos; usar scores relativos (A vs B)

Vies do LLM-as-JudgePosition bias

DescricaoPrefere a primeira resposta em comparacoes A vs B

MitigacaoRodar 2x invertendo a ordem; media dos resultados

Vies do LLM-as-JudgeVerbosity bias

DescricaoPrefere respostas mais longas mesmo quando menos precisas

MitigacaoIncluir "concisao" como criterio explicito na rubrica

Vies do LLM-as-JudgeSelf-favoritism

DescricaoModelo prefere outputs do proprio modelo

MitigacaoUsar juiz de familia diferente (Claude julga GPT e vice-versa)

Vies do LLM-as-JudgeCalibracao

DescricaoScores absolutos variam entre execucoes

MitigacaoCalibrar contra julgamentos humanos; usar scores relativos (A vs B)

Metricas especificas por dominio

Dominio	Metricas	Ferramentas
RAG	Recall@k, nDCG, faithfulness, relevance	RAGAS, LlamaIndex eval
Coding	pass@k, SWE-bench resolve rate, edit accuracy	HumanEval, SWE-bench, custom test suites
Chatbot	User satisfaction, resolution rate, escalation rate	LLM-as-judge + metricas de negocio
Summarization	ROUGE, BERTScore, faithfulness	ROUGE-L para baseline, LLM-as-judge para qualidade
Classification	F1, precision, recall, confusion matrix	sklearn metrics + domain-specific thresholds

DominioRAG

MetricasRecall@k, nDCG, faithfulness, relevance

FerramentasRAGAS, LlamaIndex eval

DominioCoding

Metricaspass@k, SWE-bench resolve rate, edit accuracy

FerramentasHumanEval, SWE-bench, custom test suites

DominioChatbot

MetricasUser satisfaction, resolution rate, escalation rate

FerramentasLLM-as-judge + metricas de negocio

DominioSummarization

MetricasROUGE, BERTScore, faithfulness

FerramentasROUGE-L para baseline, LLM-as-judge para qualidade

DominioClassification

MetricasF1, precision, recall, confusion matrix

Ferramentassklearn metrics + domain-specific thresholds

Framework de decisao

📋 Escolhendo modelo para producao

✓ Eval proprio > benchmarks publicos

Benchmarks publicos sao triagem rapida (eliminar modelos claramente inferiores). A decisao final SEMPRE deve ser baseada em avaliacao no SEU dominio, com SEUS dados, medindo o que importa PARA VOCE.

Alt: So benchmarks publicos —

🗺️ Processo de seleção de modelo — 4 filtros

Universo (~20 modelos)Frontier + open-source relevantes para seu caso

Filtro 1: benchmarks + custoEliminar modelos claramente inferiores → shortlist de 3–5

Filtro 2: eval próprio100+ exemplos do seu domínio → candidatos de 2 modelos

Filtro 3: A/B em produção1–2 semanas com usuários reais → modelo escolhido

Monitoramento contínuoEval automatizado semanal — drift detection

Eval Harness: pipeline de avaliação profissional

Um eval harness é a infraestrutura que automatiza suas avaliações — rodar os mesmos testes em novos modelos, comparar versões, detectar regressões. Sem harness, avaliação é manual e não-reproduzível.

🗺️ Anatomia de um eval harness

Dataset de eval

▼

Runner

▼

Scorer

▼

Report + tracking

# Eval harness mínimo em Python
import asyncio
from anthropic import AsyncAnthropic

client = AsyncAnthropic()

async def eval_one(example: dict, model: str) -> dict:
    resp = await client.messages.create(
        model=model,
        max_tokens=1024,
        messages=[{"role": "user", "content": example["input"]}]
    )
    output = resp.content[0].text
    score = await score_with_judge(output, example["expected"])
    return {"input": example["input"], "output": output,
            "expected": example["expected"], "score": score}

async def run_eval(dataset, model):
    results = await asyncio.gather(
        *[eval_one(ex, model) for ex in dataset]
    )
    avg = sum(r["score"] for r in results) / len(results)
    print(f"{model}: {avg:.2f}/5.0 ({len(results)} exemplos)")
    return results

A/B Testing de modelos em produção

Eval offline garante qualidade em dados históricos. A/B testing valida no contexto real: usuários reais, padrões de uso reais, resultados de negócio reais.

Aspecto	Eval Offline	A/B Testing
Quando usar	Antes do deploy — triagem e validação	Após deploy — validação no mundo real
Dados	Dataset curado de historico	Requests de produção ao vivo
Métrica	Score de rubrica, benchmarks	CTR, resolution rate, satisfação, receita
Duração	Minutos a horas	1-2 semanas (significância estatística)
Risco	Nenhum para usuários	Possível impacto negativo no grupo B
Custo	Fixo (dataset + compute)	Custo de servir o modelo mais caro simultaneamente

AspectoQuando usar

Eval OfflineAntes do deploy — triagem e validação

A/B TestingApós deploy — validação no mundo real

AspectoDados

Eval OfflineDataset curado de historico

A/B TestingRequests de produção ao vivo

AspectoMétrica

Eval OfflineScore de rubrica, benchmarks

A/B TestingCTR, resolution rate, satisfação, receita

AspectoDuração

Eval OfflineMinutos a horas

A/B Testing1-2 semanas (significância estatística)

AspectoRisco

Eval OfflineNenhum para usuários

A/B TestingPossível impacto negativo no grupo B

AspectoCusto

Eval OfflineFixo (dataset + compute)

A/B TestingCusto de servir o modelo mais caro simultaneamente

⚠️

Armadilha do A/B prematuro: testar um modelo novo sem eval offline primeiro expõe usuários reais a riscos desnecessários. O fluxo correto é sempre: eval offline (eliminar candidatos ruins) → A/B em produção (validar o melhor candidato). Nunca pule a etapa offline — é barata e protege seus usuários.

Perguntas e respostas

❓ Preciso montar eval se so estou prototipando?

Para prototipo: nao. Use benchmarks publicos + vibes (teste manual). Mas antes de ir para producao, eval proprio e inegociavel. O custo de rodar 100 exemplos em 3 modelos e ~$5-20. O custo de escolher o modelo errado em producao e ordens de magnitude maior.

❓ Com que frequencia devo reavaliar?

Sempre que: (1) o provider atualiza o modelo (versao nova); (2) seus dados ou dominio mudam; (3) um modelo novo promissor e lancado; (4) metricas de producao degradam. Na pratica: eval automatizado semanal em sample dos dados de producao + eval completo a cada atualizacao de modelo.

❓ LMArena (Chatbot Arena) e confiavel?

E o melhor benchmark de preferencia humana disponivel: blind, randomizado, milhares de votos. Mas tem vieses: respostas longas e formatadas ganham de respostas concisas e corretas. E a populacao de votantes (tech-savvy, ingles) pode nao representar seus usuarios. Use como sinal forte, nao como verdade absoluta.

Benchmark vs produção: o que realmente medir

Contexto	O que medir	Como medir
Benchmark (pré-escolha)	Triagem rápida: qual modelo não usar	MMLU, SWE-bench, HumanEval + custo/M tokens
Eval próprio (pré-deploy)	Qualidade no SEU domínio, com SEUS dados	Rubrica + LLM-as-Judge calibrado em 100+ exemplos
Produção (pós-deploy)	Satisfação real, taxa de resolução, escalonamentos	Logs de usuário + feedback explícito + metricas de negócio
Monitoramento (contínuo)	Degradação de qualidade, drift de distribuição	Eval automatizado semanal em sample dos requests

ContextoBenchmark (pré-escolha)

O que medirTriagem rápida: qual modelo não usar

Como medirMMLU, SWE-bench, HumanEval + custo/M tokens

ContextoEval próprio (pré-deploy)

O que medirQualidade no SEU domínio, com SEUS dados

Como medirRubrica + LLM-as-Judge calibrado em 100+ exemplos

ContextoProdução (pós-deploy)

O que medirSatisfação real, taxa de resolução, escalonamentos

Como medirLogs de usuário + feedback explícito + metricas de negócio

ContextoMonitoramento (contínuo)

O que medirDegradação de qualidade, drift de distribuição

Como medirEval automatizado semanal em sample dos requests

💡

Produção é a fonte da verdade. Um modelo que pontua 92% no seu eval pode ter satisfação de usuário inferior a um de 88% se o de 88% for mais conciso e direto. Sempre feche o loop: métricas de produção devem realimentar sua rubrica de eval.

✅

O que voce aprendeu: benchmarks publicos (MMLU, HumanEval, SWE-bench, LMArena) sao uteis para triagem mas insuficientes para decisoes de producao. Benchmark overfitting, data contamination e cherry-picking sao problemas reais. Avaliacao propria com rubrica + LLM-as-Judge calibrado e o padrao ouro. A decisao final considera qualidade + custo + latencia no seu dominio especifico. Com isso, voce terminou a Trilha 2 — agora tem base para entender como ferramentas de IA para codigo funcionam. Para ir mais fundo em avaliacao de RAG e LLMOps, veja Avaliando RAG (Trilha 9) e LLMOps: eval harness, drift e canary (Trilha 9).

Os benchmarks mais relevantes

Benchmark	O que mede	Como funciona	Limitacao
MMLU	Conhecimento geral (57 dominios)	Multiple choice: historia, bio, fisica, direito, etc.	Mede reconhecimento, nao raciocinio profundo
HumanEval	Geracao de codigo Python	164 problemas de programacao; mede pass@k	Problemas simples; nao reflete coding real
SWE-bench	Resolucao de issues reais	Issues de repos open-source; verifica se patch passa nos testes	Padrao ouro para coding; caro de rodar
GPQA	Raciocinio expert-level	Perguntas de PhD em fisica, bio, quimica	Muito dificil; humanos experts acertam ~65%
LMArena (Chatbot Arena)	Preferencia humana	Humanos comparam respostas de 2 modelos (blind)	Sujeito a vieses (prefere respostas longas)
MATH	Raciocinio matematico	Problemas de competicao matematica	Modelos modernos ja saturam (~90%+)
ARC-AGI	Raciocinio abstrato / fluida	Pattern matching visual com regras nao vistas	Controverso; talvez nao mexa o que promete

BenchmarkMMLU

O que medeConhecimento geral (57 dominios)

Como funcionaMultiple choice: historia, bio, fisica, direito, etc.

LimitacaoMede reconhecimento, nao raciocinio profundo

BenchmarkHumanEval

O que medeGeracao de codigo Python

Como funciona164 problemas de programacao; mede pass@k

LimitacaoProblemas simples; nao reflete coding real

BenchmarkSWE-bench

O que medeResolucao de issues reais

Como funcionaIssues de repos open-source; verifica se patch passa nos testes

LimitacaoPadrao ouro para coding; caro de rodar

BenchmarkGPQA

O que medeRaciocinio expert-level

Como funcionaPerguntas de PhD em fisica, bio, quimica

LimitacaoMuito dificil; humanos experts acertam ~65%

BenchmarkLMArena (Chatbot Arena)

O que medePreferencia humana

Como funcionaHumanos comparam respostas de 2 modelos (blind)

LimitacaoSujeito a vieses (prefere respostas longas)

BenchmarkMATH

O que medeRaciocinio matematico

Como funcionaProblemas de competicao matematica

LimitacaoModelos modernos ja saturam (~90%+)

BenchmarkARC-AGI

O que medeRaciocinio abstrato / fluida

Como funcionaPattern matching visual com regras nao vistas

LimitacaoControverso; talvez nao mexa o que promete

Pitfalls de benchmarks publicos

Pitfall	Exemplo	Impacto
Benchmark overfitting	Treinar o modelo em dados similares ao benchmark	Score alto no benchmark, performance real mediocre
Data contamination	Perguntas do benchmark vazam no dataset de treino	Modelo "decorou" respostas; score inflado
Cherry-picking	Empresa reporta so benchmarks onde vai bem	Visao distorcida das capacidades reais
Metricas agregadas	Media de 57 dominios esconde que modelo e pessimo em matematica	Decisao baseada em numero que nao reflete seu caso
Saturacao	MMLU e HumanEval ja estao >90% para modelos top	Benchmark nao diferencia mais entre modelos top

PitfallBenchmark overfitting

ExemploTreinar o modelo em dados similares ao benchmark

ImpactoScore alto no benchmark, performance real mediocre

PitfallData contamination

ExemploPerguntas do benchmark vazam no dataset de treino

ImpactoModelo "decorou" respostas; score inflado

PitfallCherry-picking

ExemploEmpresa reporta so benchmarks onde vai bem

ImpactoVisao distorcida das capacidades reais

PitfallMetricas agregadas

ExemploMedia de 57 dominios esconde que modelo e pessimo em matematica

ImpactoDecisao baseada em numero que nao reflete seu caso

PitfallSaturacao

ExemploMMLU e HumanEval ja estao >90% para modelos top

ImpactoBenchmark nao diferencia mais entre modelos top

⚠️

Avaliacao propria: o que realmente importa

🗺️ Montando seu eval pipeline

1. Coletar exemplos representativos

▼

2. Definir rubrica de qualidade

▼

3. Gerar respostas de cada modelo

▼

4. Avaliar com LLM-as-Judge + humanos

▼

5. Comparar custo, latencia e qualidade

LLM-as-Judge: automatizando avaliacao

Avaliar 1000 respostas manualmente e impraticavel. LLM-as-Judge usa um modelo forte para avaliar outputs de modelos mais fracos:

# LLM-as-Judge simplificado
import anthropic

client = anthropic.Anthropic()

rubric = """
Avalie a resposta do modelo nos seguintes criterios (1-5):
1. Corretude factual: a resposta esta correta?
2. Relevancia: responde a pergunta feita?
3. Completude: cobre os pontos importantes?
4. Clareza: e clara e bem organizada?
5. Concisao: e concisa sem ser superficial?

Retorne JSON: {"scores": {"corretude": N, ...}, "total": N, "reasoning": "..."}
"""

def evaluate(question: str, answer: str) -> dict:
    response = client.messages.create(
        model="claude-opus-4-20250514",  # juiz forte
        max_tokens=1024,
        messages=[{
            "role": "user",
            "content": f"""
{rubric}

Pergunta: {question}
Resposta do modelo: {answer}
"""
        }]
    )
    return parse_json(response.content[0].text)

# Rodar em batch
results_a = [evaluate(q, model_a(q)) for q in test_set]
results_b = [evaluate(q, model_b(q)) for q in test_set]
avg_a = sum(r["total"] for r in results_a) / len(results_a)
avg_b = sum(r["total"] for r in results_b) / len(results_b)

Vies do LLM-as-Judge	Descricao	Mitigacao
Position bias	Prefere a primeira resposta em comparacoes A vs B	Rodar 2x invertendo a ordem; media dos resultados
Verbosity bias	Prefere respostas mais longas mesmo quando menos precisas	Incluir "concisao" como criterio explicito na rubrica
Self-favoritism	Modelo prefere outputs do proprio modelo	Usar juiz de familia diferente (Claude julga GPT e vice-versa)
Calibracao	Scores absolutos variam entre execucoes	Calibrar contra julgamentos humanos; usar scores relativos (A vs B)

Vies do LLM-as-JudgePosition bias

DescricaoPrefere a primeira resposta em comparacoes A vs B

MitigacaoRodar 2x invertendo a ordem; media dos resultados

Vies do LLM-as-JudgeVerbosity bias

DescricaoPrefere respostas mais longas mesmo quando menos precisas

MitigacaoIncluir "concisao" como criterio explicito na rubrica

Vies do LLM-as-JudgeSelf-favoritism

DescricaoModelo prefere outputs do proprio modelo

MitigacaoUsar juiz de familia diferente (Claude julga GPT e vice-versa)

Vies do LLM-as-JudgeCalibracao

DescricaoScores absolutos variam entre execucoes

MitigacaoCalibrar contra julgamentos humanos; usar scores relativos (A vs B)

Metricas especificas por dominio

Dominio	Metricas	Ferramentas
RAG	Recall@k, nDCG, faithfulness, relevance	RAGAS, LlamaIndex eval
Coding	pass@k, SWE-bench resolve rate, edit accuracy	HumanEval, SWE-bench, custom test suites
Chatbot	User satisfaction, resolution rate, escalation rate	LLM-as-judge + metricas de negocio
Summarization	ROUGE, BERTScore, faithfulness	ROUGE-L para baseline, LLM-as-judge para qualidade
Classification	F1, precision, recall, confusion matrix	sklearn metrics + domain-specific thresholds

DominioRAG

MetricasRecall@k, nDCG, faithfulness, relevance

FerramentasRAGAS, LlamaIndex eval

DominioCoding

Metricaspass@k, SWE-bench resolve rate, edit accuracy

FerramentasHumanEval, SWE-bench, custom test suites

DominioChatbot

MetricasUser satisfaction, resolution rate, escalation rate

FerramentasLLM-as-judge + metricas de negocio

DominioSummarization

MetricasROUGE, BERTScore, faithfulness

FerramentasROUGE-L para baseline, LLM-as-judge para qualidade

DominioClassification

MetricasF1, precision, recall, confusion matrix

Ferramentassklearn metrics + domain-specific thresholds

Framework de decisao

📋 Escolhendo modelo para producao

✓ Eval proprio > benchmarks publicos

Benchmarks publicos sao triagem rapida (eliminar modelos claramente inferiores). A decisao final SEMPRE deve ser baseada em avaliacao no SEU dominio, com SEUS dados, medindo o que importa PARA VOCE.

Alt: So benchmarks publicos —

🗺️ Processo de seleção de modelo — 4 filtros

Universo (~20 modelos)Frontier + open-source relevantes para seu caso

Filtro 1: benchmarks + custoEliminar modelos claramente inferiores → shortlist de 3–5

Filtro 2: eval próprio100+ exemplos do seu domínio → candidatos de 2 modelos

Filtro 3: A/B em produção1–2 semanas com usuários reais → modelo escolhido

Monitoramento contínuoEval automatizado semanal — drift detection

Eval Harness: pipeline de avaliação profissional

🗺️ Anatomia de um eval harness

Dataset de eval

▼

Runner

▼

Scorer

▼

Report + tracking

# Eval harness mínimo em Python
import asyncio
from anthropic import AsyncAnthropic

client = AsyncAnthropic()

async def eval_one(example: dict, model: str) -> dict:
    resp = await client.messages.create(
        model=model,
        max_tokens=1024,
        messages=[{"role": "user", "content": example["input"]}]
    )
    output = resp.content[0].text
    score = await score_with_judge(output, example["expected"])
    return {"input": example["input"], "output": output,
            "expected": example["expected"], "score": score}

async def run_eval(dataset, model):
    results = await asyncio.gather(
        *[eval_one(ex, model) for ex in dataset]
    )
    avg = sum(r["score"] for r in results) / len(results)
    print(f"{model}: {avg:.2f}/5.0 ({len(results)} exemplos)")
    return results

A/B Testing de modelos em produção

Eval offline garante qualidade em dados históricos. A/B testing valida no contexto real: usuários reais, padrões de uso reais, resultados de negócio reais.

Aspecto	Eval Offline	A/B Testing
Quando usar	Antes do deploy — triagem e validação	Após deploy — validação no mundo real
Dados	Dataset curado de historico	Requests de produção ao vivo
Métrica	Score de rubrica, benchmarks	CTR, resolution rate, satisfação, receita
Duração	Minutos a horas	1-2 semanas (significância estatística)
Risco	Nenhum para usuários	Possível impacto negativo no grupo B
Custo	Fixo (dataset + compute)	Custo de servir o modelo mais caro simultaneamente

AspectoQuando usar

Eval OfflineAntes do deploy — triagem e validação

A/B TestingApós deploy — validação no mundo real

AspectoDados

Eval OfflineDataset curado de historico

A/B TestingRequests de produção ao vivo

AspectoMétrica

Eval OfflineScore de rubrica, benchmarks

A/B TestingCTR, resolution rate, satisfação, receita

AspectoDuração

Eval OfflineMinutos a horas

A/B Testing1-2 semanas (significância estatística)

AspectoRisco

Eval OfflineNenhum para usuários

A/B TestingPossível impacto negativo no grupo B

AspectoCusto

Eval OfflineFixo (dataset + compute)

A/B TestingCusto de servir o modelo mais caro simultaneamente

⚠️

Perguntas e respostas

❓ Preciso montar eval se so estou prototipando?

❓ Com que frequencia devo reavaliar?

❓ LMArena (Chatbot Arena) e confiavel?

Benchmark vs produção: o que realmente medir

Contexto	O que medir	Como medir
Benchmark (pré-escolha)	Triagem rápida: qual modelo não usar	MMLU, SWE-bench, HumanEval + custo/M tokens
Eval próprio (pré-deploy)	Qualidade no SEU domínio, com SEUS dados	Rubrica + LLM-as-Judge calibrado em 100+ exemplos
Produção (pós-deploy)	Satisfação real, taxa de resolução, escalonamentos	Logs de usuário + feedback explícito + metricas de negócio
Monitoramento (contínuo)	Degradação de qualidade, drift de distribuição	Eval automatizado semanal em sample dos requests

ContextoBenchmark (pré-escolha)

O que medirTriagem rápida: qual modelo não usar

Como medirMMLU, SWE-bench, HumanEval + custo/M tokens

ContextoEval próprio (pré-deploy)

O que medirQualidade no SEU domínio, com SEUS dados

Como medirRubrica + LLM-as-Judge calibrado em 100+ exemplos

ContextoProdução (pós-deploy)

O que medirSatisfação real, taxa de resolução, escalonamentos

Como medirLogs de usuário + feedback explícito + metricas de negócio

ContextoMonitoramento (contínuo)

O que medirDegradação de qualidade, drift de distribuição

Como medirEval automatizado semanal em sample dos requests

💡

✅

Como Avaliar Modelos de IA

Os benchmarks mais relevantes

Pitfalls de benchmarks publicos

Avaliacao propria: o que realmente importa

LLM-as-Judge: automatizando avaliacao

Metricas especificas por dominio

Framework de decisao

Eval Harness: pipeline de avaliação profissional

A/B Testing de modelos em produção

Perguntas e respostas

Benchmark vs produção: o que realmente medir

Próximos passos sugeridos

Discussão

Como Avaliar Modelos de IA

Os benchmarks mais relevantes

Pitfalls de benchmarks publicos

Avaliacao propria: o que realmente importa

LLM-as-Judge: automatizando avaliacao

Metricas especificas por dominio

Framework de decisao

Eval Harness: pipeline de avaliação profissional

A/B Testing de modelos em produção

Perguntas e respostas

Benchmark vs produção: o que realmente medir

Próximos passos sugeridos

Discussão