Reasoning models por dentro: o1, o3, R1, Gemini Thinking

Em setembro de 2024, a OpenAI lançou o o1 e quebrou um paradigma: scaling não termina no pre-train, continua na hora da inferência. Em janeiro de 2025, DeepSeek-R1 reproduziu a técnica em open-weights. Em 2026, "reasoning model" virou categoria estabelecida: o1, o3, o3-pro, Claude extended thinking, Gemini Thinking, DeepSeek-R1, Qwen-QwQ. Mesma família de arquitetura — diferenças sutis e estratégicas que importam para escolher e operar.

A segunda lei de scaling

O paper original do o1 (OpenAI Learning to Reason with LLMs, set/2024) revelou o gráfico que mudou tudo: accuracy em AIME (math olympiad) é log-linear em (a) pretrain compute e também em (b) test-time compute. Duas leis de scaling independentes que combinam.

Scaling law 1 (clássica)Loss ∝ Compute^(-α) — Hoffmann et al. Chinchilla 2022, Kaplan et al. 2020

Scaling law 2 (test-time)Accuracy reasoning ∝ log(inference compute) — emergente em o1/R1

Implicação práticaModelo médio + muito thinking ≈ modelo gigante + thinking baixo. Custo se desloca de capex (treino) para opex (inferência)

Limite atualEm 2026, modelos top reportam 50k–256k tokens de reasoning por query hard. o3-pro chega a 1M

💡

Implicação econômica: data centers de inferência viraram tão grandes quanto data centers de treino. AWS Trainium2, NVIDIA Blackwell B200, TPU v6 — toda esta geração foi desenhada para inference compute.

Comparativo arquitetural dos 4 grandes

Modelo	Quem	Reasoning visível?	Budget control	Tool intercalado?
o1 / o3 / o3-pro	OpenAI	Não (oculto)	reasoning_effort low/med/high	Não (em 2026)
Claude extended thinking	Anthropic	Sim (block thinking)	thinking.budget_tokens	Sim (interleaved)
Gemini 2.0/2.5 Thinking	Google DeepMind	Sim (configurable)	thinking_budget	Parcial
DeepSeek-R1	DeepSeek	Sim (<think> tags)	max_tokens + temperature	Não (single-pass)
Qwen-QwQ	Alibaba	Sim	max_thinking_tokens	Não
Kimi-k1.5	Moonshot	Sim	thinking_mode	Parcial

Modeloo1 / o3 / o3-pro

QuemOpenAI

Reasoning visível?Não (oculto)

Budget controlreasoning_effort low/med/high

Tool intercalado?Não (em 2026)

ModeloClaude extended thinking

QuemAnthropic

Reasoning visível?Sim (block thinking)

Budget controlthinking.budget_tokens

Tool intercalado?Sim (interleaved)

ModeloGemini 2.0/2.5 Thinking

QuemGoogle DeepMind

Reasoning visível?Sim (configurable)

Budget controlthinking_budget

Tool intercalado?Parcial

ModeloDeepSeek-R1

QuemDeepSeek

Reasoning visível?Sim (<think> tags)

Budget controlmax_tokens + temperature

Tool intercalado?Não (single-pass)

ModeloQwen-QwQ

QuemAlibaba

Reasoning visível?Sim

Budget controlmax_thinking_tokens

Tool intercalado?Não

ModeloKimi-k1.5

QuemMoonshot

Reasoning visível?Sim

Budget controlthinking_mode

Tool intercalado?Parcial

⚠️

Visibilidade do reasoning é decisão de produto, não capability. Anthropic publicou que extended thinking visível ajuda usuários a confiar e debugar. OpenAI argumenta que esconder protege contra destilação por competidores. Ambos têm casos legítimos.

API: como chamar reasoning models

claude_extended_thinking.py

# Claude 4.7 Opus com extended thinking
import anthropic

client = anthropic.Anthropic()

message = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=16000,
    thinking={
        "type": "enabled",
        "budget_tokens": 8000,   # 1k mínimo, 64k máximo
    },
    messages=[{
        "role": "user",
        "content": "Prove que sqrt(2) é irracional usando contradição.",
    }]
)

# Resposta contém blocos:
# [{"type": "thinking", "thinking": "Hmm, deixa eu pensar..."},
#  {"type": "text", "text": "Demonstração:..."}]
for block in message.content:
    if block.type == "thinking":
        print("=== THINKING ===")
        print(block.thinking)
    elif block.type == "text":
        print("=== RESPOSTA ===")
        print(block.text)

openai_o3.py

# OpenAI o3 (sem visibility do thinking)
from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
    model="o3",
    reasoning_effort="high",     # low/medium/high
    messages=[{
        "role": "user",
        "content": "Prove que sqrt(2) é irracional usando contradição.",
    }]
)

# Não há acesso ao conteúdo do reasoning
print(response.choices[0].message.content)
print(f"Reasoning tokens: {response.usage.completion_tokens_details.reasoning_tokens}")
print(f"Output tokens: {response.usage.completion_tokens}")
# reasoning_tokens são cobrados mesmo invisíveis

deepseek_r1.sh

# DeepSeek-R1 via API ou local
curl https://api.deepseek.com/chat/completions \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-reasoner",
    "messages": [{"role": "user", "content": "Prove sqrt(2) irracional."}],
    "max_tokens": 8000
  }'

# Resposta contém "reasoning_content" + "content"
# reasoning_content tem o <think>...</think> expandido

Arquitetura runtime de uma reasoning model

🗺️ Inference pipeline (Claude extended thinking)

System + messages — contexto + histórico

thinking.budget_tokens — quanto thinking permitir

tools[] — functions disponíveis

Block: thinking — modelo raciocina até EOS interno

Block: tool_use — se decidir chamar tool (Claude)

Block: thinking 2 — pensar sobre resultado da tool

Block: text — resposta final ao usuário

content[] — array de blocks tipados

usage.thinking_tokens — cobrado como output

stop_reason — end_turn / tool_use / max_tokens

Quando usar reasoning model vs LLM padrão

📋 Você está construindo um agente de análise de código que detecta bugs sutis em pull requests.

✓ Claude extended thinking (alto budget) ou o3

Detecção de bug sutil é raciocínio multi-step: rastrear data flow, verificar invariants, considerar edge cases. Reasoning model com thinking longo permite ao modelo simular execução, voltar atrás, considerar alternativas. LLM padrão tende a hallucinar análise plausível mas superficial.

Alt: GPT-4o ou Claude Sonnet (sem thinking) —

Alt: Ensemble: Sonnet primeiro filtra, o3 analisa profundo —

Task	Modelo padrão	Reasoning model
Chat casual	✅ Ideal	❌ Overkill, lento
Sumarização	✅ Ideal	⚠️ Talvez excesso
Math olympiad	❌ Insuficiente	✅ Crítico
Code debugging complexo	⚠️ Marginal	✅ Brilha
Análise jurídica	⚠️ Marginal	✅ Ideal
RAG simple	✅ Ideal	❌ Custa caro
Multi-step planning	❌ Falha	✅ Brilha
Tool use simples	✅ Ideal	❌ Overhead

TaskChat casual

Modelo padrão✅ Ideal

Reasoning model❌ Overkill, lento

TaskSumarização

Modelo padrão✅ Ideal

Reasoning model⚠️ Talvez excesso

TaskMath olympiad

Modelo padrão❌ Insuficiente

Reasoning model✅ Crítico

TaskCode debugging complexo

Modelo padrão⚠️ Marginal

Reasoning model✅ Brilha

TaskAnálise jurídica

Modelo padrão⚠️ Marginal

Reasoning model✅ Ideal

TaskRAG simple

Modelo padrão✅ Ideal

Reasoning model❌ Custa caro

TaskMulti-step planning

Modelo padrão❌ Falha

Reasoning model✅ Brilha

TaskTool use simples

Modelo padrão✅ Ideal

Reasoning model❌ Overhead

Custo e latência: o tradeoff

🗺️ Custos relativos (estimativa 2026)

Claude Haiku 4

▼

Claude Sonnet 4.7

▼

Claude Opus 4.7 thinking

▼

OpenAI o3

▼

o3-pro

▼

DeepSeek-R1

⚠️

Latência: reasoning model pode levar 10–120 segundos por query. Para UX interativo, considere streaming do thinking (Claude/Gemini suportam) para mostrar progresso, ou cache de thinking para queries similares.

Linha do tempo das reasoning models

Set 2024

OpenAI o1-preview

Primeira reasoning model pública

Dez 2024

o1 full + o1-pro

GA, reasoning_effort exposto

Jan 2025

DeepSeek-R1

Reasoning open-source SOTA — MIT license

Fev 2025

Gemini 2.0 Flash Thinking

Google entra na corrida com modelo rápido

Mar 2025

Claude 3.7 Sonnet thinking

Anthropic estréia extended thinking visível

Abr 2025

o3 + o3-mini

OpenAI segundo geração, code-focused

Set 2025

Claude 4 Opus thinking interleaved

Tool use intercalado com thinking

Jan 2026

o3-pro + Gemini 2.5 Thinking

1M reasoning tokens budget

Mai 2026

Claude 4.7 (1M)

Context window 1M, thinking budget 64k

Reasoning model como agente

🗺️ Loop agentivo com Claude extended thinking + tools

User: pergunta complexaEx.: "analise esse repo e proponha refactor"

Thinking block 1Modelo planeja estratégia

Tool: read_files()Modelo lê código

Thinking block 2Analisa o que leu, decide próximo passo

Tool: grep_codebase()Procura padrões específicos

Thinking block 3Sintetiza findings

Text block: respostaRefactor proposal estruturado

Perguntas frequentes

❓ Reasoning model alucina menos?

Em domínios verificáveis (math, code), sim — reasoning permite self-check antes de responder. Em domínios não-verificáveis (história, opinião), não necessariamente — pode alucinar com mais confiança porque o thinking 'racionaliza' a alucinação.

❓ Posso fine-tunar reasoning model?

Em 2026: OpenAI não permite fine-tune do o1/o3. Anthropic permite via vertex/bedrock para Sonnet. DeepSeek-R1 é open-weights, fine-tune livre via TRL/Unsloth — comum destilar R1 em modelos menores.

❓ Reasoning model é melhor que CoT prompting?

Sim, drasticamente. CoT prompting (Wei et al. 2022) instrui o LLM a 'think step by step' — funciona mas é shallow. Reasoning model foi RL-trained para reasoning longo (50k–256k tokens) com self-correction. Diferença não é gradual — é qualitativa.

❓ Como debugar quando reasoning model erra?

Em modelos com thinking visível (Claude, R1, Gemini): leia o thinking block, identifique onde o raciocínio descarrila. Em o1/o3 (invisível): apenas pode aumentar reasoning_effort, dar contexto adicional, ou trocar de modelo.

Referências

OpenAI o1openai.com/index/learning-to-reason-with-llms (Set 2024)

DeepSeek-R1arXiv:2501.12948 — open-source reasoning model SOTA

Claude extended thinkingdocs.anthropic.com/en/docs/build-with-claude/extended-thinking

Gemini Thinkingai.google.dev/gemini-api/docs/thinking

CoT prompting (origem)Wei et al. "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models". NeurIPS 2022

Test-time compute scalingSnell et al. (DeepMind). "Scaling LLM Test-Time Compute Optimally". arXiv:2408.03314 (2024)

Self-consistencyWang et al. "Self-Consistency Improves Chain of Thought Reasoning in Language Models". ICLR 2023

A segunda lei de scaling

Scaling law 1 (clássica)Loss ∝ Compute^(-α) — Hoffmann et al. Chinchilla 2022, Kaplan et al. 2020

Scaling law 2 (test-time)Accuracy reasoning ∝ log(inference compute) — emergente em o1/R1

Implicação práticaModelo médio + muito thinking ≈ modelo gigante + thinking baixo. Custo se desloca de capex (treino) para opex (inferência)

Limite atualEm 2026, modelos top reportam 50k–256k tokens de reasoning por query hard. o3-pro chega a 1M

💡

Comparativo arquitetural dos 4 grandes

Modelo	Quem	Reasoning visível?	Budget control	Tool intercalado?
o1 / o3 / o3-pro	OpenAI	Não (oculto)	reasoning_effort low/med/high	Não (em 2026)
Claude extended thinking	Anthropic	Sim (block thinking)	thinking.budget_tokens	Sim (interleaved)
Gemini 2.0/2.5 Thinking	Google DeepMind	Sim (configurable)	thinking_budget	Parcial
DeepSeek-R1	DeepSeek	Sim (<think> tags)	max_tokens + temperature	Não (single-pass)
Qwen-QwQ	Alibaba	Sim	max_thinking_tokens	Não
Kimi-k1.5	Moonshot	Sim	thinking_mode	Parcial

Modeloo1 / o3 / o3-pro

QuemOpenAI

Reasoning visível?Não (oculto)

Budget controlreasoning_effort low/med/high

Tool intercalado?Não (em 2026)

ModeloClaude extended thinking

QuemAnthropic

Reasoning visível?Sim (block thinking)

Budget controlthinking.budget_tokens

Tool intercalado?Sim (interleaved)

ModeloGemini 2.0/2.5 Thinking

QuemGoogle DeepMind

Reasoning visível?Sim (configurable)

Budget controlthinking_budget

Tool intercalado?Parcial

ModeloDeepSeek-R1

QuemDeepSeek

Reasoning visível?Sim (<think> tags)

Budget controlmax_tokens + temperature

Tool intercalado?Não (single-pass)

ModeloQwen-QwQ

QuemAlibaba

Reasoning visível?Sim

Budget controlmax_thinking_tokens

Tool intercalado?Não

ModeloKimi-k1.5

QuemMoonshot

Reasoning visível?Sim

Budget controlthinking_mode

Tool intercalado?Parcial

⚠️

API: como chamar reasoning models

claude_extended_thinking.py

# Claude 4.7 Opus com extended thinking
import anthropic

client = anthropic.Anthropic()

message = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=16000,
    thinking={
        "type": "enabled",
        "budget_tokens": 8000,   # 1k mínimo, 64k máximo
    },
    messages=[{
        "role": "user",
        "content": "Prove que sqrt(2) é irracional usando contradição.",
    }]
)

# Resposta contém blocos:
# [{"type": "thinking", "thinking": "Hmm, deixa eu pensar..."},
#  {"type": "text", "text": "Demonstração:..."}]
for block in message.content:
    if block.type == "thinking":
        print("=== THINKING ===")
        print(block.thinking)
    elif block.type == "text":
        print("=== RESPOSTA ===")
        print(block.text)

openai_o3.py

# OpenAI o3 (sem visibility do thinking)
from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
    model="o3",
    reasoning_effort="high",     # low/medium/high
    messages=[{
        "role": "user",
        "content": "Prove que sqrt(2) é irracional usando contradição.",
    }]
)

# Não há acesso ao conteúdo do reasoning
print(response.choices[0].message.content)
print(f"Reasoning tokens: {response.usage.completion_tokens_details.reasoning_tokens}")
print(f"Output tokens: {response.usage.completion_tokens}")
# reasoning_tokens são cobrados mesmo invisíveis

deepseek_r1.sh

# DeepSeek-R1 via API ou local
curl https://api.deepseek.com/chat/completions \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-reasoner",
    "messages": [{"role": "user", "content": "Prove sqrt(2) irracional."}],
    "max_tokens": 8000
  }'

# Resposta contém "reasoning_content" + "content"
# reasoning_content tem o <think>...</think> expandido

Arquitetura runtime de uma reasoning model

🗺️ Inference pipeline (Claude extended thinking)

System + messages — contexto + histórico

thinking.budget_tokens — quanto thinking permitir

tools[] — functions disponíveis

Block: thinking — modelo raciocina até EOS interno

Block: tool_use — se decidir chamar tool (Claude)

Block: thinking 2 — pensar sobre resultado da tool

Block: text — resposta final ao usuário

content[] — array de blocks tipados

usage.thinking_tokens — cobrado como output

stop_reason — end_turn / tool_use / max_tokens

Quando usar reasoning model vs LLM padrão

📋 Você está construindo um agente de análise de código que detecta bugs sutis em pull requests.

✓ Claude extended thinking (alto budget) ou o3

Alt: GPT-4o ou Claude Sonnet (sem thinking) —

Alt: Ensemble: Sonnet primeiro filtra, o3 analisa profundo —

Task	Modelo padrão	Reasoning model
Chat casual	✅ Ideal	❌ Overkill, lento
Sumarização	✅ Ideal	⚠️ Talvez excesso
Math olympiad	❌ Insuficiente	✅ Crítico
Code debugging complexo	⚠️ Marginal	✅ Brilha
Análise jurídica	⚠️ Marginal	✅ Ideal
RAG simple	✅ Ideal	❌ Custa caro
Multi-step planning	❌ Falha	✅ Brilha
Tool use simples	✅ Ideal	❌ Overhead

TaskChat casual

Modelo padrão✅ Ideal

Reasoning model❌ Overkill, lento

TaskSumarização

Modelo padrão✅ Ideal

Reasoning model⚠️ Talvez excesso

TaskMath olympiad

Modelo padrão❌ Insuficiente

Reasoning model✅ Crítico

TaskCode debugging complexo

Modelo padrão⚠️ Marginal

Reasoning model✅ Brilha

TaskAnálise jurídica

Modelo padrão⚠️ Marginal

Reasoning model✅ Ideal

TaskRAG simple

Modelo padrão✅ Ideal

Reasoning model❌ Custa caro

TaskMulti-step planning

Modelo padrão❌ Falha

Reasoning model✅ Brilha

TaskTool use simples

Modelo padrão✅ Ideal

Reasoning model❌ Overhead

Custo e latência: o tradeoff

🗺️ Custos relativos (estimativa 2026)

Claude Haiku 4

▼

Claude Sonnet 4.7

▼

Claude Opus 4.7 thinking

▼

OpenAI o3

▼

o3-pro

▼

DeepSeek-R1

⚠️

Linha do tempo das reasoning models

Set 2024

OpenAI o1-preview

Primeira reasoning model pública

Dez 2024

o1 full + o1-pro

GA, reasoning_effort exposto

Jan 2025

DeepSeek-R1

Reasoning open-source SOTA — MIT license

Fev 2025

Gemini 2.0 Flash Thinking

Google entra na corrida com modelo rápido

Mar 2025

Claude 3.7 Sonnet thinking

Anthropic estréia extended thinking visível

Abr 2025

o3 + o3-mini

OpenAI segundo geração, code-focused

Set 2025

Claude 4 Opus thinking interleaved

Tool use intercalado com thinking

Jan 2026

o3-pro + Gemini 2.5 Thinking

1M reasoning tokens budget

Mai 2026

Claude 4.7 (1M)

Context window 1M, thinking budget 64k

Reasoning model como agente

🗺️ Loop agentivo com Claude extended thinking + tools

User: pergunta complexaEx.: "analise esse repo e proponha refactor"

Thinking block 1Modelo planeja estratégia

Tool: read_files()Modelo lê código

Thinking block 2Analisa o que leu, decide próximo passo

Tool: grep_codebase()Procura padrões específicos

Thinking block 3Sintetiza findings

Text block: respostaRefactor proposal estruturado

Perguntas frequentes

❓ Reasoning model alucina menos?

❓ Posso fine-tunar reasoning model?

❓ Reasoning model é melhor que CoT prompting?

❓ Como debugar quando reasoning model erra?

Referências

OpenAI o1openai.com/index/learning-to-reason-with-llms (Set 2024)

DeepSeek-R1arXiv:2501.12948 — open-source reasoning model SOTA

Claude extended thinkingdocs.anthropic.com/en/docs/build-with-claude/extended-thinking

Gemini Thinkingai.google.dev/gemini-api/docs/thinking

CoT prompting (origem)Wei et al. "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models". NeurIPS 2022

Test-time compute scalingSnell et al. (DeepMind). "Scaling LLM Test-Time Compute Optimally". arXiv:2408.03314 (2024)

Self-consistencyWang et al. "Self-Consistency Improves Chain of Thought Reasoning in Language Models". ICLR 2023

A segunda lei de scaling

Comparativo arquitetural dos 4 grandes

API: como chamar reasoning models

Arquitetura runtime de uma reasoning model

Quando usar reasoning model vs LLM padrão

Custo e latência: o tradeoff

Linha do tempo das reasoning models

Reasoning model como agente

Perguntas frequentes

Referências

Próximos passos sugeridos

Discussão

Reasoning models por dentro: o1, o3, R1, Gemini Thinking

A segunda lei de scaling

Comparativo arquitetural dos 4 grandes

API: como chamar reasoning models

Arquitetura runtime de uma reasoning model

Quando usar reasoning model vs LLM padrão

Custo e latência: o tradeoff

Linha do tempo das reasoning models

Reasoning model como agente

Perguntas frequentes

Referências

Próximos passos sugeridos

Discussão