Voce ja sabe que um agente e um LLM em loop com tools. Mas o que faz um agente funcionar bem? A resposta e o harness — a infraestrutura ao redor do modelo que orquestra o loop, gerencia contexto, controla permissoes e delega para subagentes. Neste artigo, voce vai entender os 6 componentes que transformam um LLM em um agente profissional.

Anatomia de um agente

🗺️ Os 6 componentes do harness

Gera texto e decisões

Função pura: texto in → texto out

Não tem estado próprio

Tudo vem do contexto

Executam ações no mundo real

read/write/edit arquivos

run_command (shell)

search, web, subagent

Think → Act → Observe

Repete até completar

Limite de iterações

Detecção de loops infinitos

O que vai no prompt a cada passo

System prompt + task + arquivos

Histórico compactado

Lazy loading sob demanda

Agentes filhos especializados

Contexto limpo e focado

Isolados do contexto principal

Resultado resumido ao parent

Auto-approve: leitura

Ask once: edição

Always ask: delete/push

Block: rm -rf / force push

1. LLM: o cerebro

O LLM e uma funcao pura: recebe texto (contexto), retorna texto (decisao/conteudo). Ele nao tem estado — tudo que sabe vem do contexto que o harness envia.

Escolha de modelo	Quando usar	Trade-off
Opus / GPT-4	Tarefas complexas, raciocinio longo, planejamento	Mais caro ($15-75/M tokens), mais lento
Sonnet / GPT-4o	Uso geral, coding, analise	Equilibrio custo/qualidade
Haiku / GPT-4o-mini	Triagem, classificacao, tasks simples	Rapido e barato, menos capaz em tarefas complexas

Escolha de modeloOpus / GPT-4

Quando usarTarefas complexas, raciocinio longo, planejamento

Trade-offMais caro ($15-75/M tokens), mais lento

Escolha de modeloSonnet / GPT-4o

Quando usarUso geral, coding, analise

Trade-offEquilibrio custo/qualidade

Escolha de modeloHaiku / GPT-4o-mini

Quando usarTriagem, classificacao, tasks simples

Trade-offRapido e barato, menos capaz em tarefas complexas

💡

Agentes profissionais usam multiplos modelos: Haiku para triagem rapida (qual tool usar?), Sonnet para execucao, Opus para planejamento e decisoes criticas. Isso otimiza custo sem sacrificar qualidade.

2. Tools: as maos

Tools sao as interfaces do agente com o mundo. Em um coding agent tipico:

Tool	O que faz	Risco
read_file	Le conteudo de um arquivo	Baixo — so leitura
write_file	Cria ou sobrescreve arquivo	Medio — pode destruir trabalho
edit_file	Edita trecho especifico (search/replace)	Medio — edicao precisa
run_command	Executa comando no shell	Alto — pode rodar qualquer coisa
search_codebase	Busca por pattern no codigo	Baixo — so leitura
web_search	Pesquisa na internet	Baixo — so leitura
create_subagent	Delega tarefa para agente filho	Medio — consume tokens

Toolread_file

O que fazLe conteudo de um arquivo

RiscoBaixo — so leitura

Toolwrite_file

O que fazCria ou sobrescreve arquivo

RiscoMedio — pode destruir trabalho

Tooledit_file

O que fazEdita trecho especifico (search/replace)

RiscoMedio — edicao precisa

Toolrun_command

O que fazExecuta comando no shell

RiscoAlto — pode rodar qualquer coisa

Toolsearch_codebase

O que fazBusca por pattern no codigo

RiscoBaixo — so leitura

Toolweb_search

O que fazPesquisa na internet

RiscoBaixo — so leitura

Toolcreate_subagent

O que fazDelega tarefa para agente filho

RiscoMedio — consume tokens

3. Loop: o ciclo de decisao

🗺️ Agent loop (ReAct pattern)

Receber tarefa

▼

Raciocinar

▼

Executar tool(s)

▼

Observar resultado

▼

Continuar ou terminar?

O numero de iteracoes varia: uma refatoracao simples pode levar 5-10 passos. Um bug complexo pode levar 30-50. Agentes profissionais tem limites de iteracao para evitar loops infinitos e custo descontrolado.

4. Context Engineering: o que vai no prompt

O contexto e tudo que o modelo ve a cada passo. Gerenciar esse contexto e talvez a parte mais importante e menos obvia do harness.

🗺️ Composição do contexto a cada passo (200k tokens)

SYSTEM PROMPTcacheado

→

TASK

→

RELEVANT FILES

→

ACTION HISTORY

→

CURRENT STATE

→

5. Subagentes: dividir para conquistar

Tarefas complexas se beneficiam de delegacao. O agente principal cria subagentes especializados, cada um com:

Aspecto	Agente principal	Subagente
Contexto	Completo (task + historico)	Limpo (so a subtarefa)
Tools	Todos disponiveis	Pode ser restrito (so leitura, por ex)
Custo	Alto (contexto longo)	Menor (contexto focado)
Risco	Pode tomar decisoes globais	Isolado — nao afeta estado principal

AspectoContexto

Agente principalCompleto (task + historico)

SubagenteLimpo (so a subtarefa)

AspectoTools

Agente principalTodos disponiveis

SubagentePode ser restrito (so leitura, por ex)

AspectoCusto

Agente principalAlto (contexto longo)

SubagenteMenor (contexto focado)

AspectoRisco

Agente principalPode tomar decisoes globais

SubagenteIsolado — nao afeta estado principal

💡

Exemplo real (Claude Code): o agente principal pede “pesquise como a funcao X e usada no codebase”. Um subagente faz grep, le arquivos, e retorna um resumo. O principal nao polui seu contexto com dezenas de resultados de busca — recebe so o resumo.

6. Permissoes: seguranca em agentes

Um agente com acesso a shell pode rodar qualquer comando. Sem controle, isso e perigoso. Harnesses profissionais categorizam acoes por risco:

Nivel	Acoes	Comportamento
Auto-approve	Ler arquivo, buscar codigo, listar diretorio	Executa sem perguntar
Ask once	Editar arquivo, criar arquivo, instalar pacote	Pede permissao na primeira vez, lembra depois
Always ask	Deletar arquivo, push git, executar shell generico	Pede permissao toda vez
Block	Push force, rm -rf, credenciais, emails	Nunca permite — alerta o usuario

NivelAuto-approve

AcoesLer arquivo, buscar codigo, listar diretorio

ComportamentoExecuta sem perguntar

NivelAsk once

AcoesEditar arquivo, criar arquivo, instalar pacote

ComportamentoPede permissao na primeira vez, lembra depois

NivelAlways ask

AcoesDeletar arquivo, push git, executar shell generico

ComportamentoPede permissao toda vez

NivelBlock

AcoesPush force, rm -rf, credenciais, emails

ComportamentoNunca permite — alerta o usuario

📋 Projetando permissoes para um coding agent

✓ Default restritivo + escalation gradual

Comece bloqueando tudo exceto leitura. O usuario libera acoes conforme confianca cresce. O custo de parar para pedir permissao e baixo; o custo de uma acao destrutiva nao autorizada e alto.

Alt: Auto-approve tudo —

Padrões de orquestração: qual arquitetura usar

A estrutura do agente determina como ele decompõe tarefas complexas. Não existe padrão universal — cada um tem trade-offs em qualidade, velocidade e custo:

Padrão	Como funciona	Melhor para	Limitação
ReAct (Reasoning + Acting)	Pense → Aja → Observe → Repita. Loop simples sem planejamento explícito.	Tarefas abertas onde o próximo passo depende do resultado anterior	Pode ficar preso em loops se uma ferramenta falha repetidamente
Plan-and-Execute	Fase 1: planejar todos os passos. Fase 2: executar o plano.	Tarefas bem definidas onde o espaço de busca é conhecido antecipadamente	Plano pode ficar obsoleto se o ambiente muda durante execução
Orchestrator-Worker	Agente orquestrador delega subtarefas para subagentes especializados.	Tarefas compostas com domínios distintos (código + busca + análise)	Overhead de comunicação entre agentes; custo alto
Parallel Execution	Múltiplos subagentes trabalham simultaneamente em partes independentes.	Tarefas paralelizáveis: analisar 50 arquivos, pesquisar 10 fontes	Precisa de dependência clara entre subtarefas para evitar conflitos
Reflexion	Agente auto-critica sua própria saída e itera até atingir qualidade alvo.	Tarefas com critério de qualidade claro (código que passa nos testes)	Caro (múltiplas iterações); risco de loop infinito sem critério de parada

PadrãoReAct (Reasoning + Acting)

Como funcionaPense → Aja → Observe → Repita. Loop simples sem planejamento explícito.

Melhor paraTarefas abertas onde o próximo passo depende do resultado anterior

LimitaçãoPode ficar preso em loops se uma ferramenta falha repetidamente

PadrãoPlan-and-Execute

Como funcionaFase 1: planejar todos os passos. Fase 2: executar o plano.

Melhor paraTarefas bem definidas onde o espaço de busca é conhecido antecipadamente

LimitaçãoPlano pode ficar obsoleto se o ambiente muda durante execução

PadrãoOrchestrator-Worker

Como funcionaAgente orquestrador delega subtarefas para subagentes especializados.

Melhor paraTarefas compostas com domínios distintos (código + busca + análise)

LimitaçãoOverhead de comunicação entre agentes; custo alto

PadrãoParallel Execution

Como funcionaMúltiplos subagentes trabalham simultaneamente em partes independentes.

Melhor paraTarefas paralelizáveis: analisar 50 arquivos, pesquisar 10 fontes

LimitaçãoPrecisa de dependência clara entre subtarefas para evitar conflitos

PadrãoReflexion

Como funcionaAgente auto-critica sua própria saída e itera até atingir qualidade alvo.

Melhor paraTarefas com critério de qualidade claro (código que passa nos testes)

LimitaçãoCaro (múltiplas iterações); risco de loop infinito sem critério de parada

🗺️ Orchestrator-Worker — o padrão mais escalável

Orchestrator (LLM grande)Recebe tarefa, decompõe em subtarefas, delega para workers especializados

Workers paralelos (LLMs menores)Worker A: busca docs · Worker B: analisa código · Worker C: verifica tests

Agregação de resultadosOrchestrator integra outputs dos workers, resolve conflitos, sintetiza resposta final

Resultado consolidadoQualidade de modelo grande, custo de modelo pequeno (workers Haiku/mini)

💡

Claude Code usa uma variação de Orchestrator-Worker: o modelo principal é o orquestrador, subagentes são spawned para tarefas específicas (ex: rodar testes em paralelo, buscar em múltiplas fontes). Cada subagente tem contexto próprio — quando termina, o contexto é descartado. Isso é o que permite tarefas muito longas sem estourar a context window.

Custo de um agente em producao

🗺️ Custo real — "Adicionar autenticação JWT ao projeto" (Claude Sonnet 4)

SEM OTIMIZAÇÃO

→

COM PROMPT CACHE

→

COM SUBAGENTES HAIKU

→

ESCALA MENSAL

→

A conta fecha quando o agente economiza 2+ horas/dia de trabalho de dev. Para tarefas bem definidas (testes, docs, bug fixes), o ROI é imediato.

Perguntas e respostas

❓ Qual a diferenca entre ReAct e outros patterns de agente?

ReAct (Reasoning + Acting) e o padrao mais simples: pense, aja, observe, repita. Outros patterns: Reflexion (agente critica suas proprias acoes e melhora), Tree of Thoughts (explora multiplos caminhos antes de agir), Plan-and-Execute (planeja todos os passos antes, depois executa). Na pratica, ReAct com subagentes cobre 90% dos casos.

❓ Como evitar loops infinitos?

Tres mecanismos: (1) max iterations — limite duro de passos (ex: 50); (2) budget limit — pare quando gastar $X; (3) stuck detection — se o agente repete a mesma acao 3 vezes, pare e peca ajuda ao usuario. Claude Code usa os tres.

❓ O contexto nao estoura em tarefas longas?

Estouraria sem gerenciamento. Estrategias reais: (1) context compaction — resumir acoes antigas quando o contexto passa de 80%; (2) subagentes — cada um tem contexto proprio, descartado apos retornar; (3) lazy loading — so incluir um arquivo quando o modelo pede, nao antecipadamente.

✅

O que voce aprendeu: um agente = LLM + harness. O harness tem 6 componentes: LLM (cerebro), tools (maos), loop (ciclo de decisao), contexto (memoria de trabalho), subagentes (delegacao) e permissoes (seguranca). Context engineering e a parte mais critica — o que o modelo ve determina o que ele faz. Proximo: como saber se um modelo e realmente bom — avaliacao de modelos de IA.

Anatomia de um agente

🗺️ Os 6 componentes do harness

Gera texto e decisões

Função pura: texto in → texto out

Não tem estado próprio

Tudo vem do contexto

Executam ações no mundo real

read/write/edit arquivos

run_command (shell)

search, web, subagent

Think → Act → Observe

Repete até completar

Limite de iterações

Detecção de loops infinitos

O que vai no prompt a cada passo

System prompt + task + arquivos

Histórico compactado

Lazy loading sob demanda

Agentes filhos especializados

Contexto limpo e focado

Isolados do contexto principal

Resultado resumido ao parent

Auto-approve: leitura

Ask once: edição

Always ask: delete/push

Block: rm -rf / force push

1. LLM: o cerebro

O LLM e uma funcao pura: recebe texto (contexto), retorna texto (decisao/conteudo). Ele nao tem estado — tudo que sabe vem do contexto que o harness envia.

Escolha de modelo	Quando usar	Trade-off
Opus / GPT-4	Tarefas complexas, raciocinio longo, planejamento	Mais caro ($15-75/M tokens), mais lento
Sonnet / GPT-4o	Uso geral, coding, analise	Equilibrio custo/qualidade
Haiku / GPT-4o-mini	Triagem, classificacao, tasks simples	Rapido e barato, menos capaz em tarefas complexas

Escolha de modeloOpus / GPT-4

Quando usarTarefas complexas, raciocinio longo, planejamento

Trade-offMais caro ($15-75/M tokens), mais lento

Escolha de modeloSonnet / GPT-4o

Quando usarUso geral, coding, analise

Trade-offEquilibrio custo/qualidade

Escolha de modeloHaiku / GPT-4o-mini

Quando usarTriagem, classificacao, tasks simples

Trade-offRapido e barato, menos capaz em tarefas complexas

💡

2. Tools: as maos

Tools sao as interfaces do agente com o mundo. Em um coding agent tipico:

Tool	O que faz	Risco
read_file	Le conteudo de um arquivo	Baixo — so leitura
write_file	Cria ou sobrescreve arquivo	Medio — pode destruir trabalho
edit_file	Edita trecho especifico (search/replace)	Medio — edicao precisa
run_command	Executa comando no shell	Alto — pode rodar qualquer coisa
search_codebase	Busca por pattern no codigo	Baixo — so leitura
web_search	Pesquisa na internet	Baixo — so leitura
create_subagent	Delega tarefa para agente filho	Medio — consume tokens

Toolread_file

O que fazLe conteudo de um arquivo

RiscoBaixo — so leitura

Toolwrite_file

O que fazCria ou sobrescreve arquivo

RiscoMedio — pode destruir trabalho

Tooledit_file

O que fazEdita trecho especifico (search/replace)

RiscoMedio — edicao precisa

Toolrun_command

O que fazExecuta comando no shell

RiscoAlto — pode rodar qualquer coisa

Toolsearch_codebase

O que fazBusca por pattern no codigo

RiscoBaixo — so leitura

Toolweb_search

O que fazPesquisa na internet

RiscoBaixo — so leitura

Toolcreate_subagent

O que fazDelega tarefa para agente filho

RiscoMedio — consume tokens

3. Loop: o ciclo de decisao

🗺️ Agent loop (ReAct pattern)

Receber tarefa

▼

Raciocinar

▼

Executar tool(s)

▼

Observar resultado

▼

Continuar ou terminar?

4. Context Engineering: o que vai no prompt

O contexto e tudo que o modelo ve a cada passo. Gerenciar esse contexto e talvez a parte mais importante e menos obvia do harness.

🗺️ Composição do contexto a cada passo (200k tokens)

SYSTEM PROMPTcacheado

→

TASK

→

RELEVANT FILES

→

ACTION HISTORY

→

CURRENT STATE

→

5. Subagentes: dividir para conquistar

Tarefas complexas se beneficiam de delegacao. O agente principal cria subagentes especializados, cada um com:

Aspecto	Agente principal	Subagente
Contexto	Completo (task + historico)	Limpo (so a subtarefa)
Tools	Todos disponiveis	Pode ser restrito (so leitura, por ex)
Custo	Alto (contexto longo)	Menor (contexto focado)
Risco	Pode tomar decisoes globais	Isolado — nao afeta estado principal

AspectoContexto

Agente principalCompleto (task + historico)

SubagenteLimpo (so a subtarefa)

AspectoTools

Agente principalTodos disponiveis

SubagentePode ser restrito (so leitura, por ex)

AspectoCusto

Agente principalAlto (contexto longo)

SubagenteMenor (contexto focado)

AspectoRisco

Agente principalPode tomar decisoes globais

SubagenteIsolado — nao afeta estado principal

💡

6. Permissoes: seguranca em agentes

Um agente com acesso a shell pode rodar qualquer comando. Sem controle, isso e perigoso. Harnesses profissionais categorizam acoes por risco:

Nivel	Acoes	Comportamento
Auto-approve	Ler arquivo, buscar codigo, listar diretorio	Executa sem perguntar
Ask once	Editar arquivo, criar arquivo, instalar pacote	Pede permissao na primeira vez, lembra depois
Always ask	Deletar arquivo, push git, executar shell generico	Pede permissao toda vez
Block	Push force, rm -rf, credenciais, emails	Nunca permite — alerta o usuario

NivelAuto-approve

AcoesLer arquivo, buscar codigo, listar diretorio

ComportamentoExecuta sem perguntar

NivelAsk once

AcoesEditar arquivo, criar arquivo, instalar pacote

ComportamentoPede permissao na primeira vez, lembra depois

NivelAlways ask

AcoesDeletar arquivo, push git, executar shell generico

ComportamentoPede permissao toda vez

NivelBlock

AcoesPush force, rm -rf, credenciais, emails

ComportamentoNunca permite — alerta o usuario

📋 Projetando permissoes para um coding agent

✓ Default restritivo + escalation gradual

Comece bloqueando tudo exceto leitura. O usuario libera acoes conforme confianca cresce. O custo de parar para pedir permissao e baixo; o custo de uma acao destrutiva nao autorizada e alto.

Alt: Auto-approve tudo —

Padrões de orquestração: qual arquitetura usar

A estrutura do agente determina como ele decompõe tarefas complexas. Não existe padrão universal — cada um tem trade-offs em qualidade, velocidade e custo:

Padrão	Como funciona	Melhor para	Limitação
ReAct (Reasoning + Acting)	Pense → Aja → Observe → Repita. Loop simples sem planejamento explícito.	Tarefas abertas onde o próximo passo depende do resultado anterior	Pode ficar preso em loops se uma ferramenta falha repetidamente
Plan-and-Execute	Fase 1: planejar todos os passos. Fase 2: executar o plano.	Tarefas bem definidas onde o espaço de busca é conhecido antecipadamente	Plano pode ficar obsoleto se o ambiente muda durante execução
Orchestrator-Worker	Agente orquestrador delega subtarefas para subagentes especializados.	Tarefas compostas com domínios distintos (código + busca + análise)	Overhead de comunicação entre agentes; custo alto
Parallel Execution	Múltiplos subagentes trabalham simultaneamente em partes independentes.	Tarefas paralelizáveis: analisar 50 arquivos, pesquisar 10 fontes	Precisa de dependência clara entre subtarefas para evitar conflitos
Reflexion	Agente auto-critica sua própria saída e itera até atingir qualidade alvo.	Tarefas com critério de qualidade claro (código que passa nos testes)	Caro (múltiplas iterações); risco de loop infinito sem critério de parada

PadrãoReAct (Reasoning + Acting)

Como funcionaPense → Aja → Observe → Repita. Loop simples sem planejamento explícito.

Melhor paraTarefas abertas onde o próximo passo depende do resultado anterior

LimitaçãoPode ficar preso em loops se uma ferramenta falha repetidamente

PadrãoPlan-and-Execute

Como funcionaFase 1: planejar todos os passos. Fase 2: executar o plano.

Melhor paraTarefas bem definidas onde o espaço de busca é conhecido antecipadamente

LimitaçãoPlano pode ficar obsoleto se o ambiente muda durante execução

PadrãoOrchestrator-Worker

Como funcionaAgente orquestrador delega subtarefas para subagentes especializados.

Melhor paraTarefas compostas com domínios distintos (código + busca + análise)

LimitaçãoOverhead de comunicação entre agentes; custo alto

PadrãoParallel Execution

Como funcionaMúltiplos subagentes trabalham simultaneamente em partes independentes.

Melhor paraTarefas paralelizáveis: analisar 50 arquivos, pesquisar 10 fontes

LimitaçãoPrecisa de dependência clara entre subtarefas para evitar conflitos

PadrãoReflexion

Como funcionaAgente auto-critica sua própria saída e itera até atingir qualidade alvo.

Melhor paraTarefas com critério de qualidade claro (código que passa nos testes)

LimitaçãoCaro (múltiplas iterações); risco de loop infinito sem critério de parada

🗺️ Orchestrator-Worker — o padrão mais escalável

Orchestrator (LLM grande)Recebe tarefa, decompõe em subtarefas, delega para workers especializados

Workers paralelos (LLMs menores)Worker A: busca docs · Worker B: analisa código · Worker C: verifica tests

Agregação de resultadosOrchestrator integra outputs dos workers, resolve conflitos, sintetiza resposta final

Resultado consolidadoQualidade de modelo grande, custo de modelo pequeno (workers Haiku/mini)

💡

Custo de um agente em producao

🗺️ Custo real — "Adicionar autenticação JWT ao projeto" (Claude Sonnet 4)

SEM OTIMIZAÇÃO

→

COM PROMPT CACHE

→

COM SUBAGENTES HAIKU

→

ESCALA MENSAL

→

A conta fecha quando o agente economiza 2+ horas/dia de trabalho de dev. Para tarefas bem definidas (testes, docs, bug fixes), o ROI é imediato.

Perguntas e respostas

❓ Qual a diferenca entre ReAct e outros patterns de agente?

❓ Como evitar loops infinitos?

❓ O contexto nao estoura em tarefas longas?

✅

Harness: a Infraestrutura do Agente

Anatomia de um agente

1. LLM: o cerebro

2. Tools: as maos

3. Loop: o ciclo de decisao

4. Context Engineering: o que vai no prompt

5. Subagentes: dividir para conquistar

6. Permissoes: seguranca em agentes

Padrões de orquestração: qual arquitetura usar

Custo de um agente em producao

Perguntas e respostas

Próximos passos sugeridos

Discussão

Harness: a Infraestrutura do Agente

Anatomia de um agente

1. LLM: o cerebro

2. Tools: as maos

3. Loop: o ciclo de decisao

4. Context Engineering: o que vai no prompt

5. Subagentes: dividir para conquistar

6. Permissoes: seguranca em agentes

Padrões de orquestração: qual arquitetura usar

Custo de um agente em producao

Perguntas e respostas

Próximos passos sugeridos

Discussão