Depois de entender como cada ferramenta funciona por dentro, a pergunta prática: qual usar? A resposta honesta é "depende" — mas depende de coisas específicas e mensuráveis. Sem achismo.

O erro mais comum: escolher pela hype

A maioria das comparações online é baseada em qual ferramenta completou este benchmark específico mais rápido. Isso é quase inútil para decidir o que usar no seu trabalho. O que importa é diferente:

Matriz de decisão por contexto

Os benchmarks: o que os números mostram em 2026

Em vez de opinião, dados públicos. Abril/2026:

SWE-BENCH VERIFIED — FRONTIER CLUSTER

Claude Opus 4.6 77,2%

Claude Sonnet 4.6 77,1%

GPT-5.1-Codex-Max 76,8%

Gemini 3 Pro 76,8%

codex-max (base) 76,6%

Claude Haiku 4.5 76,4%

Spread total: ~0,8 pontos

O que essa lista te diz: em 2026, escolher modelo frontier é praticamente um coin flip. O ganho médio esperado trocando de um para outro está dentro do ruído estatístico do benchmark. O que NÃO é ruído é o scaffold:

SWE-BENCH PRO (nov/2025) — MESMO MODELO, HARNESS DIFERENTE

Claude Opus 4.5 em SEAL Harness 45,9%

Claude Opus 4.5 em scaffold X 50,1%

Claude Opus 4.5 em Claude Code 55,4%

Spread: 9,5 pontos trocando só o harness

MODELO "MENOR" + SCAFFOLD BOM BATE MODELO "MAIOR"

Confucius Code Agent + Claude Sonnet 4.5 52,7%

Claude Opus 4.5 nativo (sem agent scaffold) 52,0%

Sonnet com scaffold vence Opus sem

EFEITO DO TURN BUDGET (SWE-agent paper)

Mesmo modelo, 50 turnos max → ~23%

Mesmo modelo, 250 turnos max → ~45%+

Dar 5x mais turnos quase dobra o resultado

💡

Regra útil: se o benchmark de uma ferramenta não informa qual modelo, qual versão, quantos turnos, descarte o número. Comparar "ferramenta A: 60%" vs "ferramenta B: 55%" sem essas variáveis é comparar rankings de futebol de anos diferentes.

Mitos comuns (e a realidade dos dados)

Custo real: além do preço por token

O custo de uma ferramenta de coding agent vai além do preço da API. A conta completa:

Custo total = (tokens × preço/token)
            + tempo do dev revisando output
            + custo de bugs introduzidos
            + overhead de aprender a ferramenta
            + custo de integração ao workflow existente
            - tempo economizado em tarefas manuais

// Uma ferramenta barata que gera muito output ruim
// custa mais que uma cara que acerta na primeira.

O verdadeiro KPI é throughput de código correto por hora de trabalho — não tokens por dólar.

Recomendação prática: não escolha um

A conclusão contraintuitiva depois de entender todas as ferramentas: as melhores equipes de engenharia não escolhem uma ferramenta — elas usam ferramentas diferentes para contextos diferentes.

STACK PRAGMÁTICO (2025)

💡

O desenvolvedor que mais se beneficia de IA não é o que encontrou a ferramenta certa — é o que entende o que cada ferramenta faz bem e mal o suficiente para escolher a certa para cada situação.

Os benchmarks: o que os números mostram em 2026

Em vez de opinião, dados públicos. Abril/2026:

SWE-BENCH VERIFIED — FRONTIER CLUSTER

Claude Opus 4.6 77,2%

Claude Sonnet 4.6 77,1%

GPT-5.1-Codex-Max 76,8%

Gemini 3 Pro 76,8%

codex-max (base) 76,6%

Claude Haiku 4.5 76,4%

Spread total: ~0,8 pontos

SWE-BENCH PRO (nov/2025) — MESMO MODELO, HARNESS DIFERENTE

Claude Opus 4.5 em SEAL Harness 45,9%

Claude Opus 4.5 em scaffold X 50,1%

Claude Opus 4.5 em Claude Code 55,4%

Spread: 9,5 pontos trocando só o harness

MODELO "MENOR" + SCAFFOLD BOM BATE MODELO "MAIOR"

Confucius Code Agent + Claude Sonnet 4.5 52,7%

Claude Opus 4.5 nativo (sem agent scaffold) 52,0%

Sonnet com scaffold vence Opus sem

EFEITO DO TURN BUDGET (SWE-agent paper)

Mesmo modelo, 50 turnos max → ~23%

Mesmo modelo, 250 turnos max → ~45%+

Dar 5x mais turnos quase dobra o resultado

💡

Custo real: além do preço por token

O custo de uma ferramenta de coding agent vai além do preço da API. A conta completa:

Custo total = (tokens × preço/token)
            + tempo do dev revisando output
            + custo de bugs introduzidos
            + overhead de aprender a ferramenta
            + custo de integração ao workflow existente
            - tempo economizado em tarefas manuais

// Uma ferramenta barata que gera muito output ruim
// custa mais que uma cara que acerta na primeira.

O verdadeiro KPI é throughput de código correto por hora de trabalho — não tokens por dólar.

Recomendação prática: não escolha um

A conclusão contraintuitiva depois de entender todas as ferramentas: as melhores equipes de engenharia não escolhem uma ferramenta — elas usam ferramentas diferentes para contextos diferentes.

STACK PRAGMÁTICO (2025)

💡

Qual Ferramenta Usar e Quando

O erro mais comum: escolher pela hype

Matriz de decisão por contexto

Os benchmarks: o que os números mostram em 2026

Mitos comuns (e a realidade dos dados)

Custo real: além do preço por token

Recomendação prática: não escolha um

Próximos passos sugeridos

Discussão

Qual Ferramenta Usar e Quando

O erro mais comum: escolher pela hype

Matriz de decisão por contexto

Os benchmarks: o que os números mostram em 2026

Mitos comuns (e a realidade dos dados)

Custo real: além do preço por token

Recomendação prática: não escolha um

Próximos passos sugeridos

Discussão