GRPO e DeepSeek-R1: o salto reasoning de 2025

Em 20 de janeiro de 2025, a DeepSeek lançou o R1 — e a comunidade descobriu que o "segredo" do o1 da OpenAI não exigia bilhões em P&D fechada. GRPO (Group Relative Policy Optimization) + reward rule-based + paciência computacional bastam para desbloquear reasoning emergente. Este módulo destrincha o algoritmo, o paper e como reproduzir em 2026.

O paper que mudou o mercado

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (DeepSeek-AI, jan 2025 — arxiv.org/abs/2501.12948). Pontos-chave:

R1-ZeroV3-Base + GRPO + reward rule-based. SEM SFT, SEM RM neural, SEM human feedback. AIME pass@1: 15% → 71%.

R1 (final)Pipeline 4-estágios: cold SFT → GRPO reasoning → rejection sampling + SFT → GRPO all-scenarios.

DistilaçãoCoTs do R1 destilados para Qwen-7B, 14B, 32B; Llama-70B. Modelos pequenos chegam perto do R1 em math.

Open weightsPesos publicados sob MIT license — primeira vez que reasoning state-of-the-art ficou acessível.

Custo de treinoEstimado em $5–6M, ordem(s) de magnitude menos que GPT-4-class.

GRPO: a equação central

GRPO foi formalizado em DeepSeekMath (Shao et al. 2024). Para cada prompt q, sample G respostas {o_1, ..., o_G} de π_old, compute rewards {r_1, ..., r_G}, normalize dentro do grupo, otimize loss PPO-like com KL penalty contra π_ref:

ƒ GRPO Advantage (sem critic)

A_i = (r_i − mean(r_1..r_G)) / std(r_1..r_G)

ƒ GRPO Loss completa

L_GRPO = E_q,{o_i}[ (1/G)·Σ min(r_i·A_i, clip(r_i, 1-ε, 1+ε)·A_i) − β·KL(π_θ || π_ref) ]

💡

A diferença vs PPO: sem L^VF (não há value head), sem GAE (advantage é direto do grupo). Em troca, exige G respostas por prompt — mas elas são processadas em paralelo (vLLM) amortizando KV-cache.

Reward rule-based: o que é verificável

Domínio	Verificador	Reward
Math (AIME, MATH, GSM8K)	sympy parsing + comparação exata	+1 se correto, 0 caso contrário
Code (LiveCodeBench)	sandboxed execution + unit tests	+1 se todos passam, 0 senão
Lógica formal	theorem prover (Lean, Coq, Isabelle)	+1 se prova é aceita
Format	regex de tags <think></think>	+0.1 se formato correto
Helpfulness (R1 etapa 4)	RM neural treinado em preferences	score contínuo do RM

DomínioMath (AIME, MATH, GSM8K)

Verificadorsympy parsing + comparação exata

Reward+1 se correto, 0 caso contrário

DomínioCode (LiveCodeBench)

Verificadorsandboxed execution + unit tests

Reward+1 se todos passam, 0 senão

DomínioLógica formal

Verificadortheorem prover (Lean, Coq, Isabelle)

Reward+1 se prova é aceita

DomínioFormat

Verificadorregex de tags <think></think>

Reward+0.1 se formato correto

DomínioHelpfulness (R1 etapa 4)

VerificadorRM neural treinado em preferences

Rewardscore contínuo do RM

⚠️

Reward rule-based só funciona em domínios verificáveis. Para tasks subjetivas (criatividade, escrita, conversa), você precisa de RM neural — e aí volta o risco de reward hacking. R1 mistura: rule-based no reasoning, RM neural no SFT/etapa-4.

Pipeline DeepSeek-R1 completo

🗺️ 4 estágios do R1

Stage 1 — Cold Start SFTMilhares de CoTs longos curados (resolve language mixing)

Stage 2 — Reasoning GRPOMath/code/logic com reward rule-based

Stage 3 — Rejection Sampling + SFTModelo pós-RL gera, filtra CoTs corretos, SFT amplo

Stage 4 — GRPO All-ScenariosFinal RL incluindo helpfulness/harmlessness

🗺️ Diferenças R1-Zero vs R1

R1-Zero

▼

R1-Distill-Qwen-7B

▼

R1-Distill-Llama-70B

Reproduzindo R1-Zero com Unsloth

grpo_unsloth.py

# Reprodução R1-Zero estilo Qwen2.5-7B em H100 80GB
# Baseado em unsloth.ai/blog/r1-reasoning (fev/2025)

from unsloth import FastLanguageModel, PatchFastRL
PatchFastRL("GRPO", FastLanguageModel)

from datasets import load_dataset
from trl import GRPOConfig, GRPOTrainer
import re

# 1. Modelo base
model, tokenizer = FastLanguageModel.from_pretrained(
    "Qwen/Qwen2.5-7B-Instruct",
    max_seq_length=2048,
    load_in_4bit=False,
    fast_inference=True,           # habilita vLLM rollout
    max_lora_rank=64,
    gpu_memory_utilization=0.6,
)

# 2. Dataset matemático verificável (GSM8K)
dataset = load_dataset("openai/gsm8k", "main", split="train")

def format_prompt(example):
    return {
        "prompt": [
            {"role": "system", "content": "Responda em <think>...</think> seguido da resposta final."},
            {"role": "user", "content": example["question"]},
        ],
        "answer": example["answer"].split("####")[-1].strip(),
    }

dataset = dataset.map(format_prompt)

# 3. Reward functions (rule-based)
def correctness_reward(prompts, completions, answer, **kwargs):
    rewards = []
    for completion, ref in zip(completions, answer):
        text = completion[0]["content"]
        match = re.search(r"</think>\s*(.+)", text, re.DOTALL)
        if match and match.group(1).strip() == ref:
            rewards.append(1.0)
        else:
            rewards.append(0.0)
    return rewards

def format_reward(completions, **kwargs):
    pattern = r"<think>.+?</think>.+"
    return [0.5 if re.search(pattern, c[0]["content"], re.DOTALL) else 0.0
            for c in completions]

# 4. GRPO config
config = GRPOConfig(
    output_dir="qwen-grpo",
    learning_rate=5e-6,
    num_generations=16,        # G do grupo
    max_prompt_length=512,
    max_completion_length=1024,
    per_device_train_batch_size=1,
    gradient_accumulation_steps=4,
    num_train_epochs=1,
    beta=0.04,                 # KL penalty
)

trainer = GRPOTrainer(
    model=model,
    reward_funcs=[correctness_reward, format_reward],
    args=config,
    train_dataset=dataset,
    tokenizer=tokenizer,
)
trainer.train()

💡

Em ~4–8h numa H100, esse loop reproduz qualitativamente os "aha moments": após algumas centenas de steps, o modelo começa a escrever CoTs mais longos, voltar atrás e reescrever, e o reward de correctness no GSM8K sobe de ~60% para ~85%+.

DPO/PPO/GRPO — comparativo

Aspecto	PPO (RLHF)	DPO	GRPO
Reward Model	Neural, treinado	Implícito (sem RM)	Rule-based ou Neural
Value/Critic	Sim (value head)	Não	Não (group baseline)
Rollouts on-policy	Sim	Não (off-policy)	Sim (grupo de G)
Memória relativa	4× modelo	2× modelo	~2× modelo
Hackeável?	Sim (RM hack)	Limitado	Não (se rule-based)
Reasoning emergente	Não tipicamente	Não	Sim (R1-Zero)
Custo total	Alto	Baixo	Médio

AspectoReward Model

PPO (RLHF)Neural, treinado

DPOImplícito (sem RM)

GRPORule-based ou Neural

AspectoValue/Critic

PPO (RLHF)Sim (value head)

DPONão

GRPONão (group baseline)

AspectoRollouts on-policy

PPO (RLHF)Sim

DPONão (off-policy)

GRPOSim (grupo de G)

AspectoMemória relativa

PPO (RLHF)4× modelo

DPO2× modelo

GRPO~2× modelo

AspectoHackeável?

PPO (RLHF)Sim (RM hack)

DPOLimitado

GRPONão (se rule-based)

AspectoReasoning emergente

PPO (RLHF)Não tipicamente

DPONão

GRPOSim (R1-Zero)

AspectoCusto total

PPO (RLHF)Alto

DPOBaixo

GRPOMédio

📋 Você quer um modelo melhor em matemática/código. Tem GPUs e dataset verificável.

✓ GRPO com reward rule-based

Domínios verificáveis (math, code, logic) são exatamente onde GRPO brilha. Reward não-hackeável + group advantage sem critic = reasoning emerge. Dispense PPO complexity.

Alt: SFT em CoTs do R1 —

Alt: DPO em pares (CoT bom vs CoT ruim) —

Linha do tempo

Set 2024

OpenAI o1 lançado

Primeira reasoning model pública — método fechado

Out 2024

DeepSeekMath (GRPO)

Shao et al. — formalização do GRPO em math

Dez 2024

DeepSeek-V3

Base model open-source 671B MoE (37B active)

Jan 2025

DeepSeek-R1 + R1-Zero

Reasoning open-source SOTA — paper 2501.12948

Fev 2025

Unsloth GRPO notebooks

Reprodução em 1 GPU acessível para todos

Mar 2025

Open-R1 (HuggingFace)

Reprodução comunitária completa do pipeline

Mai 2025

Qwen-QwQ, Kimi-k1.5

Outros labs adotam GRPO + rule-based reward

2026

GRPO mainstream

Padrão da indústria para reasoning training

Perguntas frequentes

❓ GRPO funciona em tasks sem verificador rule-based?

Sim, mas perde a vantagem principal. Com reward neural, GRPO ainda economiza memória (sem critic) e tem variance lower que PPO (group baseline). Mas você perde a propriedade não-hackeável e os 'aha moments' emergentes ficam mais raros.

❓ Por que group size = 16–64 e não 4 ou 256?

G muito pequeno (4): std do grupo tem alta variância, advantage estimate instável. G muito grande (256+): custo de rollout cresce linear, ganho marginal de variância pequeno. Sweet spot 16–64 balanceia variância vs custo. DeepSeek-R1 paper reportou G=16.

❓ GRPO precisa de SFT antes?

R1-Zero provou que NÃO precisa — mas pagou em legibilidade. Para produção, fazer cold-start SFT em milhares de CoTs curados (~$1k de annotators) resolve language mixing e melhora ergonomia do output. R1 (final) usa cold SFT.

❓ Existe limite teórico para reasoning emergente via GRPO?

Não claro ainda. Como toda emergência, parece depender de (1) capacidade do base model, (2) qualidade do reward signal, (3) compute budget. Modelos 7B com GRPO atingem ~80% AIME; 70B+ vão além de 90%. Limite parece superior a humano em domínios verificáveis.

Referências

DeepSeek-R1DeepSeek-AI. "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning". arXiv:2501.12948 (Jan 2025)

DeepSeekMath (GRPO)Shao et al. "DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models". arXiv:2402.03300 (2024)

DeepSeek-V3DeepSeek-AI. "DeepSeek-V3 Technical Report". arXiv:2412.19437 (Dez 2024)

Unsloth GRPOunsloth.ai/blog/r1-reasoning — notebooks reprodução

Open-R1github.com/huggingface/open-r1 — reprodução comunitária

TRL GRPOgithub.com/huggingface/trl — GRPOTrainer oficial

Pesos abertos R1huggingface.co/deepseek-ai/DeepSeek-R1 — licença MIT

O paper que mudou o mercado

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (DeepSeek-AI, jan 2025 — arxiv.org/abs/2501.12948). Pontos-chave:

R1-ZeroV3-Base + GRPO + reward rule-based. SEM SFT, SEM RM neural, SEM human feedback. AIME pass@1: 15% → 71%.

R1 (final)Pipeline 4-estágios: cold SFT → GRPO reasoning → rejection sampling + SFT → GRPO all-scenarios.

DistilaçãoCoTs do R1 destilados para Qwen-7B, 14B, 32B; Llama-70B. Modelos pequenos chegam perto do R1 em math.

Open weightsPesos publicados sob MIT license — primeira vez que reasoning state-of-the-art ficou acessível.

Custo de treinoEstimado em $5–6M, ordem(s) de magnitude menos que GPT-4-class.

GRPO: a equação central

ƒ GRPO Advantage (sem critic)

A_i = (r_i − mean(r_1..r_G)) / std(r_1..r_G)

ƒ GRPO Loss completa

L_GRPO = E_q,{o_i}[ (1/G)·Σ min(r_i·A_i, clip(r_i, 1-ε, 1+ε)·A_i) − β·KL(π_θ || π_ref) ]

💡

Reward rule-based: o que é verificável

Domínio	Verificador	Reward
Math (AIME, MATH, GSM8K)	sympy parsing + comparação exata	+1 se correto, 0 caso contrário
Code (LiveCodeBench)	sandboxed execution + unit tests	+1 se todos passam, 0 senão
Lógica formal	theorem prover (Lean, Coq, Isabelle)	+1 se prova é aceita
Format	regex de tags <think></think>	+0.1 se formato correto
Helpfulness (R1 etapa 4)	RM neural treinado em preferences	score contínuo do RM

DomínioMath (AIME, MATH, GSM8K)

Verificadorsympy parsing + comparação exata

Reward+1 se correto, 0 caso contrário

DomínioCode (LiveCodeBench)

Verificadorsandboxed execution + unit tests

Reward+1 se todos passam, 0 senão

DomínioLógica formal

Verificadortheorem prover (Lean, Coq, Isabelle)

Reward+1 se prova é aceita

DomínioFormat

Verificadorregex de tags <think></think>

Reward+0.1 se formato correto

DomínioHelpfulness (R1 etapa 4)

VerificadorRM neural treinado em preferences

Rewardscore contínuo do RM

⚠️

Pipeline DeepSeek-R1 completo

🗺️ 4 estágios do R1

Stage 1 — Cold Start SFTMilhares de CoTs longos curados (resolve language mixing)

Stage 2 — Reasoning GRPOMath/code/logic com reward rule-based

Stage 3 — Rejection Sampling + SFTModelo pós-RL gera, filtra CoTs corretos, SFT amplo

Stage 4 — GRPO All-ScenariosFinal RL incluindo helpfulness/harmlessness

🗺️ Diferenças R1-Zero vs R1

R1-Zero

▼

R1-Distill-Qwen-7B

▼

R1-Distill-Llama-70B

Reproduzindo R1-Zero com Unsloth

grpo_unsloth.py

# Reprodução R1-Zero estilo Qwen2.5-7B em H100 80GB
# Baseado em unsloth.ai/blog/r1-reasoning (fev/2025)

from unsloth import FastLanguageModel, PatchFastRL
PatchFastRL("GRPO", FastLanguageModel)

from datasets import load_dataset
from trl import GRPOConfig, GRPOTrainer
import re

# 1. Modelo base
model, tokenizer = FastLanguageModel.from_pretrained(
    "Qwen/Qwen2.5-7B-Instruct",
    max_seq_length=2048,
    load_in_4bit=False,
    fast_inference=True,           # habilita vLLM rollout
    max_lora_rank=64,
    gpu_memory_utilization=0.6,
)

# 2. Dataset matemático verificável (GSM8K)
dataset = load_dataset("openai/gsm8k", "main", split="train")

def format_prompt(example):
    return {
        "prompt": [
            {"role": "system", "content": "Responda em <think>...</think> seguido da resposta final."},
            {"role": "user", "content": example["question"]},
        ],
        "answer": example["answer"].split("####")[-1].strip(),
    }

dataset = dataset.map(format_prompt)

# 3. Reward functions (rule-based)
def correctness_reward(prompts, completions, answer, **kwargs):
    rewards = []
    for completion, ref in zip(completions, answer):
        text = completion[0]["content"]
        match = re.search(r"</think>\s*(.+)", text, re.DOTALL)
        if match and match.group(1).strip() == ref:
            rewards.append(1.0)
        else:
            rewards.append(0.0)
    return rewards

def format_reward(completions, **kwargs):
    pattern = r"<think>.+?</think>.+"
    return [0.5 if re.search(pattern, c[0]["content"], re.DOTALL) else 0.0
            for c in completions]

# 4. GRPO config
config = GRPOConfig(
    output_dir="qwen-grpo",
    learning_rate=5e-6,
    num_generations=16,        # G do grupo
    max_prompt_length=512,
    max_completion_length=1024,
    per_device_train_batch_size=1,
    gradient_accumulation_steps=4,
    num_train_epochs=1,
    beta=0.04,                 # KL penalty
)

trainer = GRPOTrainer(
    model=model,
    reward_funcs=[correctness_reward, format_reward],
    args=config,
    train_dataset=dataset,
    tokenizer=tokenizer,
)
trainer.train()

💡

DPO/PPO/GRPO — comparativo

Aspecto	PPO (RLHF)	DPO	GRPO
Reward Model	Neural, treinado	Implícito (sem RM)	Rule-based ou Neural
Value/Critic	Sim (value head)	Não	Não (group baseline)
Rollouts on-policy	Sim	Não (off-policy)	Sim (grupo de G)
Memória relativa	4× modelo	2× modelo	~2× modelo
Hackeável?	Sim (RM hack)	Limitado	Não (se rule-based)
Reasoning emergente	Não tipicamente	Não	Sim (R1-Zero)
Custo total	Alto	Baixo	Médio

AspectoReward Model

PPO (RLHF)Neural, treinado

DPOImplícito (sem RM)

GRPORule-based ou Neural

AspectoValue/Critic

PPO (RLHF)Sim (value head)

DPONão

GRPONão (group baseline)

AspectoRollouts on-policy

PPO (RLHF)Sim

DPONão (off-policy)

GRPOSim (grupo de G)

AspectoMemória relativa

PPO (RLHF)4× modelo

DPO2× modelo

GRPO~2× modelo

AspectoHackeável?

PPO (RLHF)Sim (RM hack)

DPOLimitado

GRPONão (se rule-based)

AspectoReasoning emergente

PPO (RLHF)Não tipicamente

DPONão

GRPOSim (R1-Zero)

AspectoCusto total

PPO (RLHF)Alto

DPOBaixo

GRPOMédio

📋 Você quer um modelo melhor em matemática/código. Tem GPUs e dataset verificável.

✓ GRPO com reward rule-based

Domínios verificáveis (math, code, logic) são exatamente onde GRPO brilha. Reward não-hackeável + group advantage sem critic = reasoning emerge. Dispense PPO complexity.

Alt: SFT em CoTs do R1 —

Alt: DPO em pares (CoT bom vs CoT ruim) —

Linha do tempo

Set 2024

OpenAI o1 lançado

Primeira reasoning model pública — método fechado

Out 2024

DeepSeekMath (GRPO)

Shao et al. — formalização do GRPO em math

Dez 2024

DeepSeek-V3

Base model open-source 671B MoE (37B active)

Jan 2025

DeepSeek-R1 + R1-Zero

Reasoning open-source SOTA — paper 2501.12948

Fev 2025

Unsloth GRPO notebooks

Reprodução em 1 GPU acessível para todos

Mar 2025

Open-R1 (HuggingFace)

Reprodução comunitária completa do pipeline

Mai 2025

Qwen-QwQ, Kimi-k1.5

Outros labs adotam GRPO + rule-based reward

2026

GRPO mainstream

Padrão da indústria para reasoning training

Perguntas frequentes

❓ GRPO funciona em tasks sem verificador rule-based?

❓ Por que group size = 16–64 e não 4 ou 256?

❓ GRPO precisa de SFT antes?

❓ Existe limite teórico para reasoning emergente via GRPO?

Referências

DeepSeek-R1DeepSeek-AI. "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning". arXiv:2501.12948 (Jan 2025)

DeepSeekMath (GRPO)Shao et al. "DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models". arXiv:2402.03300 (2024)

DeepSeek-V3DeepSeek-AI. "DeepSeek-V3 Technical Report". arXiv:2412.19437 (Dez 2024)

Unsloth GRPOunsloth.ai/blog/r1-reasoning — notebooks reprodução

Open-R1github.com/huggingface/open-r1 — reprodução comunitária

TRL GRPOgithub.com/huggingface/trl — GRPOTrainer oficial

Pesos abertos R1huggingface.co/deepseek-ai/DeepSeek-R1 — licença MIT

O paper que mudou o mercado

GRPO: a equação central

Reward rule-based: o que é verificável

Pipeline DeepSeek-R1 completo

Reproduzindo R1-Zero com Unsloth

DPO/PPO/GRPO — comparativo

Linha do tempo

Perguntas frequentes

Referências

Próximos passos sugeridos

Discussão

GRPO e DeepSeek-R1: o salto reasoning de 2025

O paper que mudou o mercado

GRPO: a equação central

Reward rule-based: o que é verificável

Pipeline DeepSeek-R1 completo

Reproduzindo R1-Zero com Unsloth

DPO/PPO/GRPO — comparativo

Linha do tempo

Perguntas frequentes

Referências

Próximos passos sugeridos

Discussão