Em 2026 a Anthropic shipou um modo de inferência alternativo chamado Fast Mode. A premissa é simples: trocar qualidade marginal por velocidade. O mesmo Opus 4.6/4.7, mas com decoding otimizado e routing que prioriza throughput. Resultado típico: 1.8x a 2.5x mais rápido, com queda de qualidade pequena em tarefas de execução e quase imperceptível em loops curtos de agent. Este módulo mostra quando vale, quando é tiro no pé, e como ativar.
O que é Fast Mode tecnicamente
Fast Mode não é um modelo diferente — é o mesmo Opus servido com um pipeline de decoding mais agressivo: speculative decoding com modelo draft menor, batching de continuações, KV-cache reaproveitado entre turns da mesma sessão, e routing para shards de inferência otimizados para latência (não throughput total). O preço por token na API é igual ao modo padrão; você paga em qualidade marginal, não em billing.
Como ativar (3 formas)
# Fast Mode no Claude Code 2026 — 3 formas reais de ativar.
# IMPORTANTE: NÃO existe flag CLI --fast nem env var CLAUDE_FAST_MODE.
# Fonte: https://code.claude.com/docs/en/fast-mode
# 1. Slash command in-session (toggle com Tab)
# Dentro de uma sessão interativa, digite /fast e pressione Tab
# pra alternar on/off.
/fast
# 2. settings.json — torna padrão por projeto OU por usuário
# Project: .claude/settings.json User: ~/.claude/settings.json
cat > .claude/settings.json <<'EOF'
{
"fastMode": true
}
EOF
# 3. Env vars (controle granular por modelo)
export CLAUDE_CODE_DISABLE_FAST_MODE=1 # desabilita globalmente
export CLAUDE_CODE_ENABLE_OPUS_4_7_FAST_MODE=1 # opt-in 4.7
export CLAUDE_CODE_OPUS_4_6_FAST_MODE_OVERRIDE=1 # força 4.6 fast// IMPORTANTE: Fast Mode é feature do harness CLI, NÃO da API.
// O Agent SDK NÃO expõe `fastMode` como opção configurável.
// Para usar fast mode em jobs SDK, ative via env var antes do invoke,
// OU via settings.json do projeto/usuário.
import { query } from '@anthropic-ai/claude-agent-sdk';
for await (const ev of query({
prompt: 'Analise PR #1247 e poste comentários inline',
options: {
model: 'claude-opus-4-7',
maxTurns: 30,
// NOTA: `fastMode` aqui NÃO existe — não inclua.
},
})) {
// O estado de fast mode é read-only via control response:
if (ev.type === 'control_response') {
// ev.response.fast_mode_state: 'off' | 'cooldown' | 'on'
}
console.log(ev);
}
// Para forçar fast mode no SDK em CI/cron:
// CLAUDE_CODE_ENABLE_OPUS_4_7_FAST_MODE=1 node my-agent.tsQuando usar e quando NÃO usar
| Cenário | Fast Mode? | Por quê |
|---|---|---|
| Loop de agent com 20+ tool calls (bash, edit, grep) | Sim | Cada turn é curto e mecânico. Acumular 2x em 30 turns = 1min vs 2min |
| Code review em massa (50 PRs no cron noturno) | Sim | Volume ganha de qualidade marginal. Falhar em 2% e dobrar throughput compensa |
| Refactor mecânico (renomear, mover, ajustar imports) | Sim | Tarefa de execução pura, raciocínio mínimo |
| Geração de testes a partir de spec curta | Sim | Padrão repetitivo, output verificável por test runner |
| Debug de bug complexo com múltiplas hipóteses | Não | Precisa raciocínio cuidadoso; fast erra mais em causal reasoning |
| Arquitetura de sistema (planejamento longo) | Não | Qualidade do plano vale mais que velocidade da resposta |
| Matemática, prova formal, álgebra de tipos avançada | Não | Tarefas onde 1 token errado quebra tudo |
| Tool-use coreografado (subagent → MCP → SQL → review) | Não | Erros em meio de chain custam mais do que ganho de latência |
| Escrita criativa / copy / pitch | Depende | Fast tende a soluções mais óbvias; teste com sample |
| Sessão interativa de IDE (você lê cada resposta) | Não | Você é o gargalo, não o modelo. Use qualidade máxima |
Três exemplos práticos
# Exemplo 1 — Cron de triage de PRs (GitHub Action)
# Roda 1x/dia, processa 30+ PRs. Fast Mode reduz job de 18min → 8min.
CLAUDE_CODE_ENABLE_OPUS_4_7_FAST_MODE=1 claude -p "$(cat <<'EOF'
Para cada PR aberto em anthropics/claude-code:
- label 'needs-review' se size < 200 linhas
- label 'too-big' se > 500 linhas e pede split
- post comment com checklist se branch < main
EOF
)" --max-turns 60 --output-format stream-json# Exemplo 2 — Refactor mecânico em massa (rename + adjust imports)
# 300 arquivos. Fast Mode: ~12 min. Normal: ~28 min.
CLAUDE_CODE_ENABLE_OPUS_4_7_FAST_MODE=1 claude -p "\
Renomeie a função 'oldFetch' para 'apiFetch' em todo src/.
Ajuste imports. Não toque em testes (vão ser regenerados).
Faça em batches de 20 arquivos, commitando entre batches."# Exemplo 3 — Anti-padrão: NÃO usar Fast Mode pra debug profundo
# Errado:
CLAUDE_CODE_ENABLE_OPUS_4_7_FAST_MODE=1 claude -p "investigue por que requests/sec caiu 40% após o deploy de ontem"
# Por quê é ruim: causal reasoning em sistema de produção exige hipóteses
# cuidadosas, leitura de métricas, correlação. Fast tende a 'guess and check'.
# Custa mais ferramentas (mais $$$ em tool calls inúteis) que tokens economizados.
# Certo:
claude -p "investigue por que requests/sec caiu 40% após o deploy de ontem"
# Modo padrão: 1 sessão, 6-8 tool calls direcionadas, hipótese certa em 2 turns.Pegadinhas e gotchas reais
1. Fast Mode + thinking budget = conflito. Fast Mode e thinking budget alto não combinam: o pipeline de decoding acelerado descarta os tokens extras de raciocínio. Se você ativa fast mode (slash command, settings.json ou env var) E pede thinking estendido, o thinking é ignorado silenciosamente. Solução: choose one — ou raciocínio extra, ou velocidade.
2. Cache hit rate cai. Fast Mode usa um KV-cache layout diferente. Se você depende de prompt caching agressivo (system prompt grande, context fixo), o cache hit rate pode cair de 80% para 50%. Mensure com --debug=cache antes de adotar em produção.
3. Tool calls em paralelo são menos confiáveis. Em modo padrão o Opus paraleliza com cuidado. Em Fast Mode tende a paralelizar até onde não devia (ex: Read e Edit no mesmo arquivo na mesma turn). Adicione hook PreToolUse que detecta conflito se isso for crítico.
4. Não funciona com Extended Thinking (1M context). O context de 1M token requer modelo com decoding completo. Fast Mode com [1m] dispara erro 400. Use [1m] (claude-opus-4-7[1m]) em planejamento, fast mode em execução curta.
5. Benchmarks da Anthropic são em loops curtos. Os 2.5x prometidos aparecem em sessões de 5-15 turns. Em sessões de 100+ turns o ganho cai para ~1.4x porque o gargalo passa a ser tool execution real (bash, fetch, etc), não inferência. Mensure no SEU workload antes de prometer ganhos para o time.
TL;DR
Fast Mode é otimização de produção, não default de desenvolvimento. Use em jobs batch (cron, CI, agents long-running) onde latência manda. Evite em raciocínio profundo, planejamento longo, tool-use coreografado. Mensure cache hit rate e taxa de erro no SEU workload — os 2.5x prometidos dependem de loops curtos. Default sensato: fast mode no CI (via env var CLAUDE_CODE_ENABLE_OPUS_4_7_FAST_MODE=1), modo padrão no IDE.
Próximo módulo
Plugin Marketplace 2026 — como descobrir, instalar e publicar plugins no registry oficial da Anthropic. O ecossistema de harness compartilhado que está virando padrão de mercado.