Em 2021, a OpenAI lançou o GitHub Copilot. Era impressionante: digitava metade de uma função e a IA completava. Em 2025, Claude Code executa tarefas inteiras no seu terminal, lê toda a sua codebase, roda testes e abre PRs sozinho. O que aconteceu no meio?

Três gerações de ferramentas

A evolução aconteceu em três saltos claros. Cada geração não substituiu a anterior — ela expandiu o que é possível:

O modelo é só um componente

Este é o insight mais importante desta trilha inteira: o LLM em si é apenas uma peça. O que diferencia Claude Code de GitHub Copilot não é (só) a qualidade do modelo — é o harness: a camada de infraestrutura ao redor.

ANATOMIA DE UM CODING AGENT

Dois agentes com o mesmo LLM por baixo podem ter comportamentos radicalmente diferentes se o harness for diferente. É por isso que esta trilha compara as ferramentas de dentro para fora — não só o modelo, mas toda a arquitetura.

O loop agêntico: como um agente pensa

Todo coding agent moderno opera em um loop básico chamado ReAct (Reasoning + Acting), formalizado em um paper do Google/Princeton em 2022:

// O loop ReAct simplificado
while (objetivo não alcançado) {
  // REASONING: o LLM pensa sobre o estado atual
  pensamento = LLM.think(contexto + histórico)

  // ACTING: decide qual ferramenta usar
  ação = LLM.decide_tool(pensamento)
  // ex: { tool: "bash", input: "npm test" }

  // OBSERVING: executa e registra o resultado
  resultado = executar(ação)
  contexto.append(resultado)

  // Repete até concluir ou pedir ajuda ao usuário
}

Parece simples — e a ideia central é. A complexidade está nos detalhes: quando interromper para pedir confirmação, como lidar com erros, quanto contexto cabe na janela do modelo, e como evitar loops infinitos.

💡

O paper "ReAct: Synergizing Reasoning and Acting in Language Models" (Yao et al., 2022) é a base teórica de praticamente todos os coding agents modernos. Vale a leitura se você quiser se aprofundar.

Por que agora?

Três coisas precisaram acontecer simultaneamente para os coding agents funcionarem bem:

Os modelos estão empatando — o harness não

Um dado que muda a leitura do mercado: no SWE-bench Verified (abril/2026), seis modelos frontier estão dentro de ~0,8 ponto percentual. Claude Opus 4.6, Sonnet 4.6, GPT-5.1, Gemini 3 Pro, Haiku 4.5, codex-max — todos virtualmente empatados.

Ao mesmo tempo, dados do SWE-bench Pro (nov/2025) mostram:

// Mesmo modelo, scaffolds diferentes:
Claude Opus 4.5 em SEAL Harness       →  45,9%
Claude Opus 4.5 em scaffold X         →  ~50%
Claude Opus 4.5 em Claude Code        →  55,4%
// Spread de 9,5 pontos só trocando o harness.

// Modelo "menor" + scaffold bom vs modelo "maior" + scaffold genérico:
Confucius Code Agent + Sonnet 4.5     →  52,7%
Claude Opus 4.5 nativo                →  52,0%
// Sonnet com scaffold dedicado bate Opus sem scaffold.

Ou seja: em 2026, a diferença prática entre ferramentas vem majoritariamente do harness. Isso é contraintuitivo — a narrativa pública foca em "qual modelo é melhor" — mas é o que explica por que Claude Code, Codex e Cursor agent produzem resultados tão distintos usando modelos tão parecidos.

💡

Traduzindo o que isso significa pra você: escolher a ferramenta certa para cada tarefa tem hoje impacto maior do que escolher o modelo mais recente. Essa trilha te equipa pra isso.

💡

No próximo módulo: Claude Code por dentro — com detalhes do código-fonte vazado em 2026: QueryEngine, auto-compact a 98%, Tier 1/2 de permissões, prompt caching.

O modelo é só um componente

ANATOMIA DE UM CODING AGENT

O loop agêntico: como um agente pensa

Todo coding agent moderno opera em um loop básico chamado ReAct (Reasoning + Acting), formalizado em um paper do Google/Princeton em 2022:

// O loop ReAct simplificado
while (objetivo não alcançado) {
  // REASONING: o LLM pensa sobre o estado atual
  pensamento = LLM.think(contexto + histórico)

  // ACTING: decide qual ferramenta usar
  ação = LLM.decide_tool(pensamento)
  // ex: { tool: "bash", input: "npm test" }

  // OBSERVING: executa e registra o resultado
  resultado = executar(ação)
  contexto.append(resultado)

  // Repete até concluir ou pedir ajuda ao usuário
}

💡

Os modelos estão empatando — o harness não

Ao mesmo tempo, dados do SWE-bench Pro (nov/2025) mostram:

// Mesmo modelo, scaffolds diferentes:
Claude Opus 4.5 em SEAL Harness       →  45,9%
Claude Opus 4.5 em scaffold X         →  ~50%
Claude Opus 4.5 em Claude Code        →  55,4%
// Spread de 9,5 pontos só trocando o harness.

// Modelo "menor" + scaffold bom vs modelo "maior" + scaffold genérico:
Confucius Code Agent + Sonnet 4.5     →  52,7%
Claude Opus 4.5 nativo                →  52,0%
// Sonnet com scaffold dedicado bate Opus sem scaffold.

💡

Traduzindo o que isso significa pra você: escolher a ferramenta certa para cada tarefa tem hoje impacto maior do que escolher o modelo mais recente. Essa trilha te equipa pra isso.

O Panorama dos Coding Agents

Três gerações de ferramentas

O modelo é só um componente

O loop agêntico: como um agente pensa

Por que agora?

Os modelos estão empatando — o harness não

Próximos passos sugeridos

Discussão

O Panorama dos Coding Agents

Três gerações de ferramentas

O modelo é só um componente

O loop agêntico: como um agente pensa

Por que agora?

Os modelos estão empatando — o harness não

Próximos passos sugeridos

Discussão