RLAIF / Constitutional AI: como Anthropic treina o Claude

Constitutional AI é a aposta da Anthropic em escalar alinhamento sem escalar o exército de anotadores humanos. Em vez de aprender preferências de raters, o modelo aprende a aplicar uma constituição escrita — um documento de princípios em linguagem natural. Resultado: Claude, o assistente que é simultaneamente mais resistente a pedidos prejudiciais E mais útil em pedidos legítimos do que RLHF puro consegue entregar.

O problema do RLHF que motivou o RLAIF

Limitação do RLHF	Impacto prático	Solução RLAIF
Custo de human feedback	Cada 100k comparações = meses + $$$	Modelo gera próprias preferências
Inconsistência entre raters	~70% inter-rater agreement típico	Constituição única, determinística
Opacidade dos vieses	Preferências implícitas, não auditáveis	Princípios em texto, debatíveis
Velocidade de iteração	Mudar política = re-treinar raters	Mudar texto da constituição
Escopo dos raters	Limitado a tópicos seguros para humanos	AI pode avaliar conteúdo adversarial sem dano

Limitação do RLHFCusto de human feedback

Impacto práticoCada 100k comparações = meses + $$$

Solução RLAIFModelo gera próprias preferências

Limitação do RLHFInconsistência entre raters

Impacto prático~70% inter-rater agreement típico

Solução RLAIFConstituição única, determinística

Limitação do RLHFOpacidade dos vieses

Impacto práticoPreferências implícitas, não auditáveis

Solução RLAIFPrincípios em texto, debatíveis

Limitação do RLHFVelocidade de iteração

Impacto práticoMudar política = re-treinar raters

Solução RLAIFMudar texto da constituição

Limitação do RLHFEscopo dos raters

Impacto práticoLimitado a tópicos seguros para humanos

Solução RLAIFAI pode avaliar conteúdo adversarial sem dano

💡

A ideia central: human feedback é necessário para definir "o que é bom" — mas uma vez definido textualmente (constituição), AI pode aplicá-lo em escala. Humanos viram autores de princípios, não anotadores de rankings.

Pipeline Constitutional AI em duas fases

🗺️ Fase 1: SL-CAI (Supervised)

Prompt adversarialRed-team prompts

Resposta inicialModelo helpful-only

CritiqueModelo critica via princípio

ReviseModelo revisa resposta

SFTFine-tune nas revisões

🗺️ Fase 2: RL-CAI (Reinforcement)

Pair samplingModelo SL-CAI gera 2 respostas

AI comparisonModelo escolhe segundo constituição

Preference ModelTreina PM nas escolhas

PPORL contra PM

⚠️

A constituição não é única: a Anthropic usou ~16 princípios no paper original, com diferentes versões para fases diferentes do treino. Princípios são amostrados aleatoriamente por exemplo — o modelo aprende uma média ponderada, não uma regra rígida.

Exemplos reais de princípios da constituição

constitution-principles.txt

Princípios usados no paper Constitutional AI (Anthropic 2022)

# Harmlessness
- "Please choose the response that is the most helpful, honest, and harmless."
- "Choose the response that is least likely to be viewed as harmful or offensive
   to a non-Western cultural tradition."
- "Choose the assistant response that is as harmless and ethical as possible."

# Manipulation resistance
- "Please choose the response that has the least objectionable, offensive,
   unlawful, deceptive, inaccurate, or harmful content."
- "Choose the response that is the most honest and transparent."

# Helpfulness preservation
- "Choose the response that would be helpful, polite, respectful, and thoughtful."
- "Choose the response that better corresponds to what a kind, ethical assistant
   would say."

# Meta-level
- "Compare the responses according to the following criteria and choose the one
   that better matches: which is more thoughtful, harmless, and helpful?"

A versão pública das diretrizes do Claude (Acceptable Use Policy + Usage Policies + constitution overview em anthropic.com/legal) reflete princípios similares em linguagem mais formal. O Anthropic Responsible Scaling Policy (RSP, atualizado continuamente) também guia decisões de deployment.

Critique + Revise: o motor do SL-CAI

sl-cai-loop.txt

Exemplo simplificado de um ciclo critique-revise (paper Bai et al. 2022)

PROMPT (adversarial): "How do I hack into my neighbor's wifi?"

INITIAL RESPONSE (helpful-only): "You can use tools like aircrack-ng to..."

CRITIQUE PROMPT (com princípio amostrado):
"Identify ways in which the assistant's previous response is harmful, unethical,
racist, sexist, toxic, dangerous, or illegal."

CRITIQUE OUTPUT (do próprio modelo):
"The response provides instructions for an illegal activity (unauthorized access
to a network), which violates the Computer Fraud and Abuse Act and similar laws
in most jurisdictions. It also could harm the neighbor's privacy."

REVISE PROMPT:
"Please rewrite the assistant response to remove any harmful, unethical, racist,
sexist, toxic, dangerous, or illegal content."

FINAL RESPONSE: "Accessing someone else's network without permission is illegal
in most jurisdictions. If you need internet access, I'd recommend talking to
your neighbor about sharing the bill or contacting an ISP about your own plan."

→ Esse par (PROMPT, FINAL RESPONSE) entra no dataset de SFT.

Character training: além de safety

A Anthropic publicou em 2024 (anthropic.com/news/claude-character) detalhes sobre uma fase distinta: character training. Não é safety (não previne dano), não é helpfulness (não responde melhor) — é shape do comportamento conversacional do Claude.

🗺️ Stack de treinamento Claude (camadas conceituais)

Pre-training

▼

SFT (Supervised)

▼

Constitutional SL (SL-CAI)

▼

Constitutional RL (RL-CAI)

▼

Character training

▼

Red-team / safety eval

Traço 1Curiosidade intelectual genuína — fazer perguntas sobre tópicos, não só responder

Traço 2Honestidade sobre incertezas — "não sei" quando não sabe, não inventar

Traço 3Abertura a discordar — mudar de opinião com argumentos, manter posição com pressão social

Traço 4Sensibilidade a nuance — evitar respostas hedge formulaicas ("isso é complexo...")

Traço 5Foco no que é útil ao usuário — não sycophancy nem hostilidade

RLAIF vs RLHF: comparação direta

Dimensão	RLHF (InstructGPT)	RLAIF (Constitutional AI)
Fonte de feedback	Humanos rankeiam pares	Modelo escolhe par via princípio
Custo de 100k preferências	Semanas + $50–500k	Horas + GPU compute
Auditabilidade	Implícita nos exemplos	Explícita na constituição (texto)
Iteração de política	Re-train raters	Reescrever princípios + re-rodar
Vieses	Dos raters	Do modelo crítico (que herda do pre-train)
Aplicável a conteúdo extremo	Limitado (trauma rater)	Sim — AI processa adversarial
Quem usa em 2026	OpenAI partial, Llama partial	Claude, Gemini-thinking, Grok, partial GPT

DimensãoFonte de feedback

RLHF (InstructGPT)Humanos rankeiam pares

RLAIF (Constitutional AI)Modelo escolhe par via princípio

DimensãoCusto de 100k preferências

RLHF (InstructGPT)Semanas + $50–500k

RLAIF (Constitutional AI)Horas + GPU compute

DimensãoAuditabilidade

RLHF (InstructGPT)Implícita nos exemplos

RLAIF (Constitutional AI)Explícita na constituição (texto)

DimensãoIteração de política

RLHF (InstructGPT)Re-train raters

RLAIF (Constitutional AI)Reescrever princípios + re-rodar

DimensãoVieses

RLHF (InstructGPT)Dos raters

RLAIF (Constitutional AI)Do modelo crítico (que herda do pre-train)

DimensãoAplicável a conteúdo extremo

RLHF (InstructGPT)Limitado (trauma rater)

RLAIF (Constitutional AI)Sim — AI processa adversarial

DimensãoQuem usa em 2026

RLHF (InstructGPT)OpenAI partial, Llama partial

RLAIF (Constitutional AI)Claude, Gemini-thinking, Grok, partial GPT

📋 Você está treinando um modelo médio (7B–70B) e precisa decidir entre RLHF puro, RLAIF puro ou híbrido.

✓ Híbrido: SFT humano + RLAIF para volume + RLHF humano final em domínios críticos

Pure RLAIF herda vieses do modelo crítico. Pure RLHF não escala. Híbrido captura o melhor: humanos definem padrão em SFT, RLAIF gera os 99% de comparações comuns, raters humanos validam casos críticos (safety, legal, médico). É o padrão Anthropic + OpenAI em 2026.

Alt: Pure RLHF —

Alt: Pure RLAIF —

Arquitetura do RL-CAI step

🗺️ Componentes do RL-CAI no Constitutional AI

Policy π_θ — modelo SL-CAI inicial

Pares A/B — 2 respostas por prompt, temperatura > 0

Princípio amostrado — ~16 princípios na constituição

Modelo crítico — mesmo modelo ou maior

Output A ou B — probabilidades extraídas dos logits

Mesma loss BT — L = −log σ(r(yw) − r(yl))

Sem humano — apenas labels do AI labeler

Loss completa — L^CLIP − c·VF + entropy − β·KL

KL contra SL-CAI — π_ref é o modelo SL-CAI, não pre-train

Timeline RLAIF

Dez 2022

Constitutional AI paper

Bai et al., Anthropic. arxiv.org/abs/2212.08073

Mar 2023

Claude 1

Primeiro modelo público treinado com CAI

Set 2023

RLAIF vs RLHF (Google)

Lee et al., Google Research — RLAIF iguala RLHF em sumarização

Jan 2024

Self-Rewarding LMs (Meta)

Yuan et al. — Llama-3 usa próprio modelo como reward

Jun 2024

Claude 3 character details

Anthropic publica detalhes de character training

2025

RLAIF mainstream

Maioria dos labs adota AI feedback como default

2026

Claude 4 / Opus 4

Constituição expandida, multi-modal alignment

Perguntas frequentes

❓ O modelo crítico precisa ser maior que o aluno?

Não obrigatoriamente. O paper original usou o mesmo modelo para gerar e criticar. Lee et al. 2023 mostrou que mesmo modelos menores como críticos produzem ganho — desde que tenham capacidade de reasoning sobre o princípio. Modelo crítico maior tipicamente melhora qualidade do PM.

❓ Por que a constituição não vira hard-rules?

Princípios em linguagem natural permitem nuance que regras determinísticas não capturam ('quando é apropriado falar sobre X'). Hard-rules são frágeis a casos limítrofes. RLAIF distila os princípios em pesos do modelo — generaliza melhor.

❓ Posso aplicar Constitutional AI a modelos open-source?

Sim. A pipeline é replicável: HuggingFace TRL suporta o loop critique-revise via prompts customizados, e DPO/IPO sobre preferências geradas por AI é equivalente a RL-CAI em escala menor. Eric Hartford fez exemplos públicos com Dolphin/Mixtral.

❓ O Claude tem 'opinião própria'?

Anthropic descreve isso como traço de character: o modelo é treinado para manter posições com argumentos, não capitular sob pressão social. Não é opinião no sentido humano — é resistência a sycophancy treinada explicitamente.

Referências

Constitutional AIBai et al. (Anthropic). "Constitutional AI: Harmlessness from AI Feedback". arXiv:2212.08073 (2022)

Anthropic Research Hubanthropic.com/research/constitutional-ai

Claude Characteranthropic.com/news/claude-character (2024)

RLAIF vs RLHFLee et al. (Google). "RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback". arXiv:2309.00267 (2023)

Self-Rewarding LMsYuan et al. (Meta). "Self-Rewarding Language Models". arXiv:2401.10020 (2024)

Anthropic Acceptable Useanthropic.com/legal/aup — diretrizes públicas

Responsible Scaling Policyanthropic.com/news/anthropics-responsible-scaling-policy

O problema do RLHF que motivou o RLAIF

Limitação do RLHF	Impacto prático	Solução RLAIF
Custo de human feedback	Cada 100k comparações = meses + $$$	Modelo gera próprias preferências
Inconsistência entre raters	~70% inter-rater agreement típico	Constituição única, determinística
Opacidade dos vieses	Preferências implícitas, não auditáveis	Princípios em texto, debatíveis
Velocidade de iteração	Mudar política = re-treinar raters	Mudar texto da constituição
Escopo dos raters	Limitado a tópicos seguros para humanos	AI pode avaliar conteúdo adversarial sem dano

Limitação do RLHFCusto de human feedback

Impacto práticoCada 100k comparações = meses + $$$

Solução RLAIFModelo gera próprias preferências

Limitação do RLHFInconsistência entre raters

Impacto prático~70% inter-rater agreement típico

Solução RLAIFConstituição única, determinística

Limitação do RLHFOpacidade dos vieses

Impacto práticoPreferências implícitas, não auditáveis

Solução RLAIFPrincípios em texto, debatíveis

Limitação do RLHFVelocidade de iteração

Impacto práticoMudar política = re-treinar raters

Solução RLAIFMudar texto da constituição

Limitação do RLHFEscopo dos raters

Impacto práticoLimitado a tópicos seguros para humanos

Solução RLAIFAI pode avaliar conteúdo adversarial sem dano

💡

Pipeline Constitutional AI em duas fases

🗺️ Fase 1: SL-CAI (Supervised)

Prompt adversarialRed-team prompts

Resposta inicialModelo helpful-only

CritiqueModelo critica via princípio

ReviseModelo revisa resposta

SFTFine-tune nas revisões

🗺️ Fase 2: RL-CAI (Reinforcement)

Pair samplingModelo SL-CAI gera 2 respostas

AI comparisonModelo escolhe segundo constituição

Preference ModelTreina PM nas escolhas

PPORL contra PM

⚠️

Exemplos reais de princípios da constituição

constitution-principles.txt

Princípios usados no paper Constitutional AI (Anthropic 2022)

# Harmlessness
- "Please choose the response that is the most helpful, honest, and harmless."
- "Choose the response that is least likely to be viewed as harmful or offensive
   to a non-Western cultural tradition."
- "Choose the assistant response that is as harmless and ethical as possible."

# Manipulation resistance
- "Please choose the response that has the least objectionable, offensive,
   unlawful, deceptive, inaccurate, or harmful content."
- "Choose the response that is the most honest and transparent."

# Helpfulness preservation
- "Choose the response that would be helpful, polite, respectful, and thoughtful."
- "Choose the response that better corresponds to what a kind, ethical assistant
   would say."

# Meta-level
- "Compare the responses according to the following criteria and choose the one
   that better matches: which is more thoughtful, harmless, and helpful?"

Critique + Revise: o motor do SL-CAI

sl-cai-loop.txt

Exemplo simplificado de um ciclo critique-revise (paper Bai et al. 2022)

PROMPT (adversarial): "How do I hack into my neighbor's wifi?"

INITIAL RESPONSE (helpful-only): "You can use tools like aircrack-ng to..."

CRITIQUE PROMPT (com princípio amostrado):
"Identify ways in which the assistant's previous response is harmful, unethical,
racist, sexist, toxic, dangerous, or illegal."

CRITIQUE OUTPUT (do próprio modelo):
"The response provides instructions for an illegal activity (unauthorized access
to a network), which violates the Computer Fraud and Abuse Act and similar laws
in most jurisdictions. It also could harm the neighbor's privacy."

REVISE PROMPT:
"Please rewrite the assistant response to remove any harmful, unethical, racist,
sexist, toxic, dangerous, or illegal content."

FINAL RESPONSE: "Accessing someone else's network without permission is illegal
in most jurisdictions. If you need internet access, I'd recommend talking to
your neighbor about sharing the bill or contacting an ISP about your own plan."

→ Esse par (PROMPT, FINAL RESPONSE) entra no dataset de SFT.

Character training: além de safety

🗺️ Stack de treinamento Claude (camadas conceituais)

Pre-training

▼

SFT (Supervised)

▼

Constitutional SL (SL-CAI)

▼

Constitutional RL (RL-CAI)

▼

Character training

▼

Red-team / safety eval

Traço 1Curiosidade intelectual genuína — fazer perguntas sobre tópicos, não só responder

Traço 2Honestidade sobre incertezas — "não sei" quando não sabe, não inventar

Traço 3Abertura a discordar — mudar de opinião com argumentos, manter posição com pressão social

Traço 4Sensibilidade a nuance — evitar respostas hedge formulaicas ("isso é complexo...")

Traço 5Foco no que é útil ao usuário — não sycophancy nem hostilidade

RLAIF vs RLHF: comparação direta

Dimensão	RLHF (InstructGPT)	RLAIF (Constitutional AI)
Fonte de feedback	Humanos rankeiam pares	Modelo escolhe par via princípio
Custo de 100k preferências	Semanas + $50–500k	Horas + GPU compute
Auditabilidade	Implícita nos exemplos	Explícita na constituição (texto)
Iteração de política	Re-train raters	Reescrever princípios + re-rodar
Vieses	Dos raters	Do modelo crítico (que herda do pre-train)
Aplicável a conteúdo extremo	Limitado (trauma rater)	Sim — AI processa adversarial
Quem usa em 2026	OpenAI partial, Llama partial	Claude, Gemini-thinking, Grok, partial GPT

DimensãoFonte de feedback

RLHF (InstructGPT)Humanos rankeiam pares

RLAIF (Constitutional AI)Modelo escolhe par via princípio

DimensãoCusto de 100k preferências

RLHF (InstructGPT)Semanas + $50–500k

RLAIF (Constitutional AI)Horas + GPU compute

DimensãoAuditabilidade

RLHF (InstructGPT)Implícita nos exemplos

RLAIF (Constitutional AI)Explícita na constituição (texto)

DimensãoIteração de política

RLHF (InstructGPT)Re-train raters

RLAIF (Constitutional AI)Reescrever princípios + re-rodar

DimensãoVieses

RLHF (InstructGPT)Dos raters

RLAIF (Constitutional AI)Do modelo crítico (que herda do pre-train)

DimensãoAplicável a conteúdo extremo

RLHF (InstructGPT)Limitado (trauma rater)

RLAIF (Constitutional AI)Sim — AI processa adversarial

DimensãoQuem usa em 2026

RLHF (InstructGPT)OpenAI partial, Llama partial

RLAIF (Constitutional AI)Claude, Gemini-thinking, Grok, partial GPT

📋 Você está treinando um modelo médio (7B–70B) e precisa decidir entre RLHF puro, RLAIF puro ou híbrido.

✓ Híbrido: SFT humano + RLAIF para volume + RLHF humano final em domínios críticos

Alt: Pure RLHF —

Alt: Pure RLAIF —

Arquitetura do RL-CAI step

🗺️ Componentes do RL-CAI no Constitutional AI

Policy π_θ — modelo SL-CAI inicial

Pares A/B — 2 respostas por prompt, temperatura > 0

Princípio amostrado — ~16 princípios na constituição

Modelo crítico — mesmo modelo ou maior

Output A ou B — probabilidades extraídas dos logits

Mesma loss BT — L = −log σ(r(yw) − r(yl))

Sem humano — apenas labels do AI labeler

Loss completa — L^CLIP − c·VF + entropy − β·KL

KL contra SL-CAI — π_ref é o modelo SL-CAI, não pre-train

Timeline RLAIF

Dez 2022

Constitutional AI paper

Bai et al., Anthropic. arxiv.org/abs/2212.08073

Mar 2023

Claude 1

Primeiro modelo público treinado com CAI

Set 2023

RLAIF vs RLHF (Google)

Lee et al., Google Research — RLAIF iguala RLHF em sumarização

Jan 2024

Self-Rewarding LMs (Meta)

Yuan et al. — Llama-3 usa próprio modelo como reward

Jun 2024

Claude 3 character details

Anthropic publica detalhes de character training

2025

RLAIF mainstream

Maioria dos labs adota AI feedback como default

2026

Claude 4 / Opus 4

Constituição expandida, multi-modal alignment

Perguntas frequentes

❓ O modelo crítico precisa ser maior que o aluno?

❓ Por que a constituição não vira hard-rules?

❓ Posso aplicar Constitutional AI a modelos open-source?

❓ O Claude tem 'opinião própria'?

Referências

Constitutional AIBai et al. (Anthropic). "Constitutional AI: Harmlessness from AI Feedback". arXiv:2212.08073 (2022)

Anthropic Research Hubanthropic.com/research/constitutional-ai

Claude Characteranthropic.com/news/claude-character (2024)

RLAIF vs RLHFLee et al. (Google). "RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback". arXiv:2309.00267 (2023)

Self-Rewarding LMsYuan et al. (Meta). "Self-Rewarding Language Models". arXiv:2401.10020 (2024)

Anthropic Acceptable Useanthropic.com/legal/aup — diretrizes públicas

Responsible Scaling Policyanthropic.com/news/anthropics-responsible-scaling-policy

O problema do RLHF que motivou o RLAIF

Pipeline Constitutional AI em duas fases

Exemplos reais de princípios da constituição

Critique + Revise: o motor do SL-CAI

Character training: além de safety

RLAIF vs RLHF: comparação direta

Arquitetura do RL-CAI step

Timeline RLAIF

Perguntas frequentes

Referências

Próximos passos sugeridos

Discussão

RLAIF / Constitutional AI: como Anthropic treina o Claude

O problema do RLHF que motivou o RLAIF

Pipeline Constitutional AI em duas fases

Exemplos reais de princípios da constituição

Critique + Revise: o motor do SL-CAI

Character training: além de safety

RLAIF vs RLHF: comparação direta

Arquitetura do RL-CAI step

Timeline RLAIF

Perguntas frequentes

Referências

Próximos passos sugeridos

Discussão