Agent evaluation em produção: golden sets vs LLM-as-judge

Por que avaliar agente é mais difícil que avaliar LLM

Avaliar um chat single-turn: você tem prompt → resposta → compara com gold. Avaliar um agente: planejou? escolheu a tool certa? interpretou o resultado? executou o número correto de passos? recuperou de erro intermediário? Avaliar agente = avaliar trajetória inteira, não só o output final.

⚠️

Um agente pode chegar na resposta certa por caminhos errados — usando 20 chamadas redundantes a APIs externas, gastando 10x o orçamento, vazando dados pra contextos errados. Output correto ≠ trajetória correta.

Os 3 níveis de avaliação

🗺️ Pirâmide de eval — do unitário ao end-to-end

Prompt isolado

Tool call isolada

Retrieval isolado

Sequência de calls

Reasoning entre steps

Tool selection

Error recovery

Task success

User satisfaction

Business metric impactada

Golden trajectories — o que é e como construir

Golden trajectory é a trajetória esperada de um agente: prompt inicial + sequência canônica de (thought → action → observation) + output final. Você cura ~50-200 dessas amostras para cobrir cenários críticos (happy path + edge cases + failure modes).

# Exemplo simplificado — golden trajectory para agente de e-commerce
{
  "id": "track_order_happy_path",
  "input": "Onde está meu pedido #12345?",
  "expected_trajectory": [
    {"step": 1, "action": "tool:order_lookup", "args": {"order_id": "12345"}},
    {"step": 2, "action": "tool:tracking_lookup", "args": {"tracking_id": "BR123ABC"}},
    {"step": 3, "action": "respond", "args": {"message_pattern": "Seu pedido .* está em (trânsito|preparação|entregue)"}}
  ],
  "expected_outcome": "user_informed_with_status",
  "max_steps": 5,
  "max_cost_usd": 0.05
}

Origem das trajetóriasLogs reais de produção (curados) + casos sintéticos para edge cases

Tamanho recomendado50-200 trajetórias para CI/regression, 500-2000 para release acceptance

VersionamentoGit — trajectories são código. Mudanças passam por PR

AtualizaçãoMensal: revisar drift entre golden e produção real

LLM-as-judge — o trade-off prático

A ideia de Zheng et al (NeurIPS 2023, "MT-Bench"): use um LLM forte (Claude Opus, GPT-4) como árbitro de respostas geradas por um LLM menor. Velocidade humano-like sem o custo. Mas vem com vieses:

Viés conhecido	Como mitigar
Position bias	Avaliar (A, B) e (B, A); reportar só se ambas concordam
Length bias (favorece verbose)	Normalizar por length na rubrica explícita
Self-bias (mesma família vence)	Usar juiz de família diferente do produto avaliado
Sycophancy	Pedir crítica explícita; rubrica que penaliza ambiguidade
Calibragem ao longo do tempo	Re-validar com 5-10% human eval semanal

Viés conhecidoPosition bias

Como mitigarAvaliar (A, B) e (B, A); reportar só se ambas concordam

Viés conhecidoLength bias (favorece verbose)

Como mitigarNormalizar por length na rubrica explícita

Viés conhecidoSelf-bias (mesma família vence)

Como mitigarUsar juiz de família diferente do produto avaliado

Viés conhecidoSycophancy

Como mitigarPedir crítica explícita; rubrica que penaliza ambiguidade

Viés conhecidoCalibragem ao longo do tempo

Como mitigarRe-validar com 5-10% human eval semanal

Regression eval em CI — stack moderna

🗺️ Pipeline de PR com eval gating

PR abertoMudança em prompt, tool, modelo ou RAG

CI dispara subset20-50 golden trajectories estratificadas

Métricas computadasTask success, trajectory edit distance, custo, latência

GatingFalha se métrica principal cai > limiar (ex: -3%)

Diff visualLangSmith/Braintrust mostra antes/depois lado a lado

MergeApós review humano dos diffs

💡

O subset estratificado é a chave do custo controlado: pegue trajetórias de cada categoria (auth, search, checkout, support) e do cada nível de dificuldade. ~30 trajetórias bem escolhidas detectam 80% das regressões.

Frameworks 2026 — qual usar

Tool	Foco	Quando escolher
LangSmith	Trace + eval + dataset, integração LangChain/LangGraph nativa	Já usa LangChain stack
Phoenix Arize	Open-source, tracing OpenTelemetry, RAG-eval forte	Quer self-host + OTel
Braintrust	DX moderna, scoring custom, diff visual entre runs	Time pequeno, foco em iteração rápida
Langfuse	OSS, self-host friendly, prompts versionados	Self-host + EU/LGPD-friendly
Promptfoo	CLI-first, ótimo pra CI	Pipelines simples, eval declarativa em YAML
Helicone	Mais sobre observabilidade que eval	Visibilidade rápida sem instrumentação pesada

ToolLangSmith

FocoTrace + eval + dataset, integração LangChain/LangGraph nativa

Quando escolherJá usa LangChain stack

ToolPhoenix Arize

FocoOpen-source, tracing OpenTelemetry, RAG-eval forte

Quando escolherQuer self-host + OTel

ToolBraintrust

FocoDX moderna, scoring custom, diff visual entre runs

Quando escolherTime pequeno, foco em iteração rápida

ToolLangfuse

FocoOSS, self-host friendly, prompts versionados

Quando escolherSelf-host + EU/LGPD-friendly

ToolPromptfoo

FocoCLI-first, ótimo pra CI

Quando escolherPipelines simples, eval declarativa em YAML

ToolHelicone

FocoMais sobre observabilidade que eval

Quando escolherVisibilidade rápida sem instrumentação pesada

Métricas que realmente importam

Task success rateBinário ou rubrica — concluiu o objetivo? (a métrica norte)

Trajectory efficiencyPassos reais ÷ passos do golden ideal. Próximo de 1.0 é ótimo.

Tool error rate% de tool calls que retornaram erro — saúde do ambiente

Recovery rateQuando tool falha, agente se recupera? Critical para production

p50/p95 latency end-to-endO usuário sente p95, não a média

Cost per taskUS$ médio para concluir uma tarefa (depende de tokens + tool fees)

Hallucination rateFração de respostas com claim factual incorreta (precisa rubric)

Agent Arena — comparação head-to-head

Padrão emergente em 2026: agent arenas (LMArena-style para agentes) — duas versões do agente respondem em paralelo, usuário/juiz vota qual foi melhor, Elo score acumula. Bom para evolução contínua entre versões; ruim para acceptance gates absolutos.

Quando voltar para human eval

Domínio especializadoMédico, legal, financeiro, regulatório

Qualidade subjetivaTom, empatia, criatividade — métrica difícil de formalizar

Release maiorFinal acceptance antes de empurrar para 100% dos usuários

Calibragem do juiz LLM5-10% das amostras vão pra humano como ground truth ongoing

Casos de falha críticaToda falha de segurança/safety vai pra revisão humana detalhada

Por que avaliar agente é mais difícil que avaliar LLM

⚠️

Golden trajectories — o que é e como construir

# Exemplo simplificado — golden trajectory para agente de e-commerce
{
  "id": "track_order_happy_path",
  "input": "Onde está meu pedido #12345?",
  "expected_trajectory": [
    {"step": 1, "action": "tool:order_lookup", "args": {"order_id": "12345"}},
    {"step": 2, "action": "tool:tracking_lookup", "args": {"tracking_id": "BR123ABC"}},
    {"step": 3, "action": "respond", "args": {"message_pattern": "Seu pedido .* está em (trânsito|preparação|entregue)"}}
  ],
  "expected_outcome": "user_informed_with_status",
  "max_steps": 5,
  "max_cost_usd": 0.05
}

Origem das trajetóriasLogs reais de produção (curados) + casos sintéticos para edge cases

Tamanho recomendado50-200 trajetórias para CI/regression, 500-2000 para release acceptance

VersionamentoGit — trajectories são código. Mudanças passam por PR

AtualizaçãoMensal: revisar drift entre golden e produção real

LLM-as-judge — o trade-off prático

A ideia de Zheng et al (NeurIPS 2023, "MT-Bench"): use um LLM forte (Claude Opus, GPT-4) como árbitro de respostas geradas por um LLM menor. Velocidade humano-like sem o custo. Mas vem com vieses:

Viés conhecido	Como mitigar
Position bias	Avaliar (A, B) e (B, A); reportar só se ambas concordam
Length bias (favorece verbose)	Normalizar por length na rubrica explícita
Self-bias (mesma família vence)	Usar juiz de família diferente do produto avaliado
Sycophancy	Pedir crítica explícita; rubrica que penaliza ambiguidade
Calibragem ao longo do tempo	Re-validar com 5-10% human eval semanal

Viés conhecidoPosition bias

Como mitigarAvaliar (A, B) e (B, A); reportar só se ambas concordam

Viés conhecidoLength bias (favorece verbose)

Como mitigarNormalizar por length na rubrica explícita

Viés conhecidoSelf-bias (mesma família vence)

Como mitigarUsar juiz de família diferente do produto avaliado

Viés conhecidoSycophancy

Como mitigarPedir crítica explícita; rubrica que penaliza ambiguidade

Viés conhecidoCalibragem ao longo do tempo

Como mitigarRe-validar com 5-10% human eval semanal

Regression eval em CI — stack moderna

🗺️ Pipeline de PR com eval gating

PR abertoMudança em prompt, tool, modelo ou RAG

CI dispara subset20-50 golden trajectories estratificadas

Métricas computadasTask success, trajectory edit distance, custo, latência

GatingFalha se métrica principal cai > limiar (ex: -3%)

Diff visualLangSmith/Braintrust mostra antes/depois lado a lado

MergeApós review humano dos diffs

💡

Frameworks 2026 — qual usar

Tool	Foco	Quando escolher
LangSmith	Trace + eval + dataset, integração LangChain/LangGraph nativa	Já usa LangChain stack
Phoenix Arize	Open-source, tracing OpenTelemetry, RAG-eval forte	Quer self-host + OTel
Braintrust	DX moderna, scoring custom, diff visual entre runs	Time pequeno, foco em iteração rápida
Langfuse	OSS, self-host friendly, prompts versionados	Self-host + EU/LGPD-friendly
Promptfoo	CLI-first, ótimo pra CI	Pipelines simples, eval declarativa em YAML
Helicone	Mais sobre observabilidade que eval	Visibilidade rápida sem instrumentação pesada

ToolLangSmith

FocoTrace + eval + dataset, integração LangChain/LangGraph nativa

Quando escolherJá usa LangChain stack

ToolPhoenix Arize

FocoOpen-source, tracing OpenTelemetry, RAG-eval forte

Quando escolherQuer self-host + OTel

ToolBraintrust

FocoDX moderna, scoring custom, diff visual entre runs

Quando escolherTime pequeno, foco em iteração rápida

ToolLangfuse

FocoOSS, self-host friendly, prompts versionados

Quando escolherSelf-host + EU/LGPD-friendly

ToolPromptfoo

FocoCLI-first, ótimo pra CI

Quando escolherPipelines simples, eval declarativa em YAML

ToolHelicone

FocoMais sobre observabilidade que eval

Quando escolherVisibilidade rápida sem instrumentação pesada

Métricas que realmente importam

Task success rateBinário ou rubrica — concluiu o objetivo? (a métrica norte)

Trajectory efficiencyPassos reais ÷ passos do golden ideal. Próximo de 1.0 é ótimo.

Tool error rate% de tool calls que retornaram erro — saúde do ambiente

Recovery rateQuando tool falha, agente se recupera? Critical para production

p50/p95 latency end-to-endO usuário sente p95, não a média

Cost per taskUS$ médio para concluir uma tarefa (depende de tokens + tool fees)

Hallucination rateFração de respostas com claim factual incorreta (precisa rubric)

Quando voltar para human eval

Domínio especializadoMédico, legal, financeiro, regulatório

Qualidade subjetivaTom, empatia, criatividade — métrica difícil de formalizar

Release maiorFinal acceptance antes de empurrar para 100% dos usuários

Calibragem do juiz LLM5-10% das amostras vão pra humano como ground truth ongoing

Casos de falha críticaToda falha de segurança/safety vai pra revisão humana detalhada

Por que avaliar agente é mais difícil que avaliar LLM

Os 3 níveis de avaliação

Golden trajectories — o que é e como construir

LLM-as-judge — o trade-off prático

Regression eval em CI — stack moderna

Frameworks 2026 — qual usar

Métricas que realmente importam

Agent Arena — comparação head-to-head

Quando voltar para human eval

Próximos passos sugeridos

Discussão

Agent evaluation em produção: golden sets vs LLM-as-judge

Por que avaliar agente é mais difícil que avaliar LLM

Os 3 níveis de avaliação

Golden trajectories — o que é e como construir

LLM-as-judge — o trade-off prático

Regression eval em CI — stack moderna

Frameworks 2026 — qual usar

Métricas que realmente importam

Agent Arena — comparação head-to-head

Quando voltar para human eval

Próximos passos sugeridos

Discussão