claude-code-fast-mode

Em 2026 a Anthropic shipou um modo de inferência alternativo chamado Fast Mode. A premissa é simples: trocar qualidade marginal por velocidade. O mesmo Opus 4.6/4.7, mas com decoding otimizado e routing que prioriza throughput. Resultado típico: 1.8x a 2.5x mais rápido, com queda de qualidade pequena em tarefas de execução e quase imperceptível em loops curtos de agent. Este módulo mostra quando vale, quando é tiro no pé, e como ativar.

O que é Fast Mode tecnicamente

Fast Mode não é um modelo diferente — é o mesmo Opus servido com um pipeline de decoding mais agressivo: speculative decoding com modelo draft menor, batching de continuações, KV-cache reaproveitado entre turns da mesma sessão, e routing para shards de inferência otimizados para latência (não throughput total). O preço por token na API é igual ao modo padrão; você paga em qualidade marginal, não em billing.

Como ativar (3 formas)

# Fast Mode no Claude Code 2026 — 3 formas reais de ativar.
# IMPORTANTE: NÃO existe flag CLI --fast nem env var CLAUDE_FAST_MODE.
# Fonte: https://code.claude.com/docs/en/fast-mode

# 1. Slash command in-session (toggle com Tab)
#    Dentro de uma sessão interativa, digite /fast e pressione Tab
#    pra alternar on/off.
/fast

# 2. settings.json — torna padrão por projeto OU por usuário
#    Project: .claude/settings.json    User: ~/.claude/settings.json
cat > .claude/settings.json <<'EOF'
{
  "fastMode": true
}
EOF

# 3. Env vars (controle granular por modelo)
export CLAUDE_CODE_DISABLE_FAST_MODE=1            # desabilita globalmente
export CLAUDE_CODE_ENABLE_OPUS_4_7_FAST_MODE=1    # opt-in 4.7
export CLAUDE_CODE_OPUS_4_6_FAST_MODE_OVERRIDE=1  # força 4.6 fast

// IMPORTANTE: Fast Mode é feature do harness CLI, NÃO da API.
// O Agent SDK NÃO expõe `fastMode` como opção configurável.
// Para usar fast mode em jobs SDK, ative via env var antes do invoke,
// OU via settings.json do projeto/usuário.
import { query } from '@anthropic-ai/claude-agent-sdk';

for await (const ev of query({
  prompt: 'Analise PR #1247 e poste comentários inline',
  options: {
    model: 'claude-opus-4-7',
    maxTurns: 30,
    // NOTA: `fastMode` aqui NÃO existe — não inclua.
  },
})) {
  // O estado de fast mode é read-only via control response:
  if (ev.type === 'control_response') {
    // ev.response.fast_mode_state: 'off' | 'cooldown' | 'on'
  }
  console.log(ev);
}

// Para forçar fast mode no SDK em CI/cron:
//   CLAUDE_CODE_ENABLE_OPUS_4_7_FAST_MODE=1 node my-agent.ts

Quando usar e quando NÃO usar

Cenário	Fast Mode?	Por quê
Loop de agent com 20+ tool calls (bash, edit, grep)	Sim	Cada turn é curto e mecânico. Acumular 2x em 30 turns = 1min vs 2min
Code review em massa (50 PRs no cron noturno)	Sim	Volume ganha de qualidade marginal. Falhar em 2% e dobrar throughput compensa
Refactor mecânico (renomear, mover, ajustar imports)	Sim	Tarefa de execução pura, raciocínio mínimo
Geração de testes a partir de spec curta	Sim	Padrão repetitivo, output verificável por test runner
Debug de bug complexo com múltiplas hipóteses	Não	Precisa raciocínio cuidadoso; fast erra mais em causal reasoning
Arquitetura de sistema (planejamento longo)	Não	Qualidade do plano vale mais que velocidade da resposta
Matemática, prova formal, álgebra de tipos avançada	Não	Tarefas onde 1 token errado quebra tudo
Tool-use coreografado (subagent → MCP → SQL → review)	Não	Erros em meio de chain custam mais do que ganho de latência
Escrita criativa / copy / pitch	Depende	Fast tende a soluções mais óbvias; teste com sample
Sessão interativa de IDE (você lê cada resposta)	Não	Você é o gargalo, não o modelo. Use qualidade máxima

CenárioLoop de agent com 20+ tool calls (bash, edit, grep)

Fast Mode?Sim

Por quêCada turn é curto e mecânico. Acumular 2x em 30 turns = 1min vs 2min

CenárioCode review em massa (50 PRs no cron noturno)

Fast Mode?Sim

Por quêVolume ganha de qualidade marginal. Falhar em 2% e dobrar throughput compensa

CenárioRefactor mecânico (renomear, mover, ajustar imports)

Fast Mode?Sim

Por quêTarefa de execução pura, raciocínio mínimo

CenárioGeração de testes a partir de spec curta

Fast Mode?Sim

Por quêPadrão repetitivo, output verificável por test runner

CenárioDebug de bug complexo com múltiplas hipóteses

Fast Mode?Não

Por quêPrecisa raciocínio cuidadoso; fast erra mais em causal reasoning

CenárioArquitetura de sistema (planejamento longo)

Fast Mode?Não

Por quêQualidade do plano vale mais que velocidade da resposta

CenárioMatemática, prova formal, álgebra de tipos avançada

Fast Mode?Não

Por quêTarefas onde 1 token errado quebra tudo

CenárioTool-use coreografado (subagent → MCP → SQL → review)

Fast Mode?Não

Por quêErros em meio de chain custam mais do que ganho de latência

CenárioEscrita criativa / copy / pitch

Fast Mode?Depende

Por quêFast tende a soluções mais óbvias; teste com sample

CenárioSessão interativa de IDE (você lê cada resposta)

Fast Mode?Não

Por quêVocê é o gargalo, não o modelo. Use qualidade máxima

Três exemplos práticos

# Exemplo 1 — Cron de triage de PRs (GitHub Action)
# Roda 1x/dia, processa 30+ PRs. Fast Mode reduz job de 18min → 8min.
CLAUDE_CODE_ENABLE_OPUS_4_7_FAST_MODE=1 claude -p "$(cat <<'EOF'
Para cada PR aberto em anthropics/claude-code:
- label 'needs-review' se size < 200 linhas
- label 'too-big' se > 500 linhas e pede split
- post comment com checklist se branch < main
EOF
)" --max-turns 60 --output-format stream-json

# Exemplo 2 — Refactor mecânico em massa (rename + adjust imports)
# 300 arquivos. Fast Mode: ~12 min. Normal: ~28 min.
CLAUDE_CODE_ENABLE_OPUS_4_7_FAST_MODE=1 claude -p "\
Renomeie a função 'oldFetch' para 'apiFetch' em todo src/.
Ajuste imports. Não toque em testes (vão ser regenerados).
Faça em batches de 20 arquivos, commitando entre batches."

# Exemplo 3 — Anti-padrão: NÃO usar Fast Mode pra debug profundo
# Errado:
CLAUDE_CODE_ENABLE_OPUS_4_7_FAST_MODE=1 claude -p "investigue por que requests/sec caiu 40% após o deploy de ontem"
# Por quê é ruim: causal reasoning em sistema de produção exige hipóteses
# cuidadosas, leitura de métricas, correlação. Fast tende a 'guess and check'.
# Custa mais ferramentas (mais $$$ em tool calls inúteis) que tokens economizados.

# Certo:
claude -p "investigue por que requests/sec caiu 40% após o deploy de ontem"
# Modo padrão: 1 sessão, 6-8 tool calls direcionadas, hipótese certa em 2 turns.

Pegadinhas e gotchas reais

1. Fast Mode + thinking budget = conflito. Fast Mode e thinking budget alto não combinam: o pipeline de decoding acelerado descarta os tokens extras de raciocínio. Se você ativa fast mode (slash command, settings.json ou env var) E pede thinking estendido, o thinking é ignorado silenciosamente. Solução: choose one — ou raciocínio extra, ou velocidade.

2. Cache hit rate cai. Fast Mode usa um KV-cache layout diferente. Se você depende de prompt caching agressivo (system prompt grande, context fixo), o cache hit rate pode cair de 80% para 50%. Mensure com --debug=cache antes de adotar em produção.

3. Tool calls em paralelo são menos confiáveis. Em modo padrão o Opus paraleliza com cuidado. Em Fast Mode tende a paralelizar até onde não devia (ex: Read e Edit no mesmo arquivo na mesma turn). Adicione hook PreToolUse que detecta conflito se isso for crítico.

4. Não funciona com Extended Thinking (1M context). O context de 1M token requer modelo com decoding completo. Fast Mode com [1m] dispara erro 400. Use [1m] (claude-opus-4-7[1m]) em planejamento, fast mode em execução curta.

5. Benchmarks da Anthropic são em loops curtos. Os 2.5x prometidos aparecem em sessões de 5-15 turns. Em sessões de 100+ turns o ganho cai para ~1.4x porque o gargalo passa a ser tool execution real (bash, fetch, etc), não inferência. Mensure no SEU workload antes de prometer ganhos para o time.

✅

TL;DR

Fast Mode é otimização de produção, não default de desenvolvimento. Use em jobs batch (cron, CI, agents long-running) onde latência manda. Evite em raciocínio profundo, planejamento longo, tool-use coreografado. Mensure cache hit rate e taxa de erro no SEU workload — os 2.5x prometidos dependem de loops curtos. Default sensato: fast mode no CI (via env var CLAUDE_CODE_ENABLE_OPUS_4_7_FAST_MODE=1), modo padrão no IDE.

💡

Próximo módulo

Plugin Marketplace 2026 — como descobrir, instalar e publicar plugins no registry oficial da Anthropic. O ecossistema de harness compartilhado que está virando padrão de mercado.

O que é Fast Mode tecnicamente

Como ativar (3 formas)

# Fast Mode no Claude Code 2026 — 3 formas reais de ativar.
# IMPORTANTE: NÃO existe flag CLI --fast nem env var CLAUDE_FAST_MODE.
# Fonte: https://code.claude.com/docs/en/fast-mode

# 1. Slash command in-session (toggle com Tab)
#    Dentro de uma sessão interativa, digite /fast e pressione Tab
#    pra alternar on/off.
/fast

# 2. settings.json — torna padrão por projeto OU por usuário
#    Project: .claude/settings.json    User: ~/.claude/settings.json
cat > .claude/settings.json <<'EOF'
{
  "fastMode": true
}
EOF

# 3. Env vars (controle granular por modelo)
export CLAUDE_CODE_DISABLE_FAST_MODE=1            # desabilita globalmente
export CLAUDE_CODE_ENABLE_OPUS_4_7_FAST_MODE=1    # opt-in 4.7
export CLAUDE_CODE_OPUS_4_6_FAST_MODE_OVERRIDE=1  # força 4.6 fast

// IMPORTANTE: Fast Mode é feature do harness CLI, NÃO da API.
// O Agent SDK NÃO expõe `fastMode` como opção configurável.
// Para usar fast mode em jobs SDK, ative via env var antes do invoke,
// OU via settings.json do projeto/usuário.
import { query } from '@anthropic-ai/claude-agent-sdk';

for await (const ev of query({
  prompt: 'Analise PR #1247 e poste comentários inline',
  options: {
    model: 'claude-opus-4-7',
    maxTurns: 30,
    // NOTA: `fastMode` aqui NÃO existe — não inclua.
  },
})) {
  // O estado de fast mode é read-only via control response:
  if (ev.type === 'control_response') {
    // ev.response.fast_mode_state: 'off' | 'cooldown' | 'on'
  }
  console.log(ev);
}

// Para forçar fast mode no SDK em CI/cron:
//   CLAUDE_CODE_ENABLE_OPUS_4_7_FAST_MODE=1 node my-agent.ts

Quando usar e quando NÃO usar

Cenário	Fast Mode?	Por quê
Loop de agent com 20+ tool calls (bash, edit, grep)	Sim	Cada turn é curto e mecânico. Acumular 2x em 30 turns = 1min vs 2min
Code review em massa (50 PRs no cron noturno)	Sim	Volume ganha de qualidade marginal. Falhar em 2% e dobrar throughput compensa
Refactor mecânico (renomear, mover, ajustar imports)	Sim	Tarefa de execução pura, raciocínio mínimo
Geração de testes a partir de spec curta	Sim	Padrão repetitivo, output verificável por test runner
Debug de bug complexo com múltiplas hipóteses	Não	Precisa raciocínio cuidadoso; fast erra mais em causal reasoning
Arquitetura de sistema (planejamento longo)	Não	Qualidade do plano vale mais que velocidade da resposta
Matemática, prova formal, álgebra de tipos avançada	Não	Tarefas onde 1 token errado quebra tudo
Tool-use coreografado (subagent → MCP → SQL → review)	Não	Erros em meio de chain custam mais do que ganho de latência
Escrita criativa / copy / pitch	Depende	Fast tende a soluções mais óbvias; teste com sample
Sessão interativa de IDE (você lê cada resposta)	Não	Você é o gargalo, não o modelo. Use qualidade máxima

CenárioLoop de agent com 20+ tool calls (bash, edit, grep)

Fast Mode?Sim

Por quêCada turn é curto e mecânico. Acumular 2x em 30 turns = 1min vs 2min

CenárioCode review em massa (50 PRs no cron noturno)

Fast Mode?Sim

Por quêVolume ganha de qualidade marginal. Falhar em 2% e dobrar throughput compensa

CenárioRefactor mecânico (renomear, mover, ajustar imports)

Fast Mode?Sim

Por quêTarefa de execução pura, raciocínio mínimo

CenárioGeração de testes a partir de spec curta

Fast Mode?Sim

Por quêPadrão repetitivo, output verificável por test runner

CenárioDebug de bug complexo com múltiplas hipóteses

Fast Mode?Não

Por quêPrecisa raciocínio cuidadoso; fast erra mais em causal reasoning

CenárioArquitetura de sistema (planejamento longo)

Fast Mode?Não

Por quêQualidade do plano vale mais que velocidade da resposta

CenárioMatemática, prova formal, álgebra de tipos avançada

Fast Mode?Não

Por quêTarefas onde 1 token errado quebra tudo

CenárioTool-use coreografado (subagent → MCP → SQL → review)

Fast Mode?Não

Por quêErros em meio de chain custam mais do que ganho de latência

CenárioEscrita criativa / copy / pitch

Fast Mode?Depende

Por quêFast tende a soluções mais óbvias; teste com sample

CenárioSessão interativa de IDE (você lê cada resposta)

Fast Mode?Não

Por quêVocê é o gargalo, não o modelo. Use qualidade máxima

Três exemplos práticos

# Exemplo 1 — Cron de triage de PRs (GitHub Action)
# Roda 1x/dia, processa 30+ PRs. Fast Mode reduz job de 18min → 8min.
CLAUDE_CODE_ENABLE_OPUS_4_7_FAST_MODE=1 claude -p "$(cat <<'EOF'
Para cada PR aberto em anthropics/claude-code:
- label 'needs-review' se size < 200 linhas
- label 'too-big' se > 500 linhas e pede split
- post comment com checklist se branch < main
EOF
)" --max-turns 60 --output-format stream-json

# Exemplo 2 — Refactor mecânico em massa (rename + adjust imports)
# 300 arquivos. Fast Mode: ~12 min. Normal: ~28 min.
CLAUDE_CODE_ENABLE_OPUS_4_7_FAST_MODE=1 claude -p "\
Renomeie a função 'oldFetch' para 'apiFetch' em todo src/.
Ajuste imports. Não toque em testes (vão ser regenerados).
Faça em batches de 20 arquivos, commitando entre batches."

# Exemplo 3 — Anti-padrão: NÃO usar Fast Mode pra debug profundo
# Errado:
CLAUDE_CODE_ENABLE_OPUS_4_7_FAST_MODE=1 claude -p "investigue por que requests/sec caiu 40% após o deploy de ontem"
# Por quê é ruim: causal reasoning em sistema de produção exige hipóteses
# cuidadosas, leitura de métricas, correlação. Fast tende a 'guess and check'.
# Custa mais ferramentas (mais $$$ em tool calls inúteis) que tokens economizados.

# Certo:
claude -p "investigue por que requests/sec caiu 40% após o deploy de ontem"
# Modo padrão: 1 sessão, 6-8 tool calls direcionadas, hipótese certa em 2 turns.

Pegadinhas e gotchas reais

O que é Fast Mode tecnicamente

Como ativar (3 formas)

Quando usar e quando NÃO usar

Três exemplos práticos

Pegadinhas e gotchas reais

Próximos passos sugeridos

Discussão

claude-code-fast-mode

O que é Fast Mode tecnicamente

Como ativar (3 formas)

Quando usar e quando NÃO usar

Três exemplos práticos

Pegadinhas e gotchas reais

Próximos passos sugeridos

Discussão