Constitutional AI é a aposta da Anthropic em escalar alinhamento sem escalar o exército de anotadores humanos. Em vez de aprender preferências de raters, o modelo aprende a aplicar uma constituição escrita — um documento de princípios em linguagem natural. Resultado: Claude, o assistente que é simultaneamente mais resistente a pedidos prejudiciais E mais útil em pedidos legítimos do que RLHF puro consegue entregar.
O problema do RLHF que motivou o RLAIF
| Limitação do RLHF | Impacto prático | Solução RLAIF |
|---|---|---|
| Custo de human feedback | Cada 100k comparações = meses + $$$ | Modelo gera próprias preferências |
| Inconsistência entre raters | ~70% inter-rater agreement típico | Constituição única, determinística |
| Opacidade dos vieses | Preferências implícitas, não auditáveis | Princípios em texto, debatíveis |
| Velocidade de iteração | Mudar política = re-treinar raters | Mudar texto da constituição |
| Escopo dos raters | Limitado a tópicos seguros para humanos | AI pode avaliar conteúdo adversarial sem dano |
A ideia central: human feedback é necessário para definir "o que é bom" — mas uma vez definido textualmente (constituição), AI pode aplicá-lo em escala. Humanos viram autores de princípios, não anotadores de rankings.
Pipeline Constitutional AI em duas fases
A constituição não é única: a Anthropic usou ~16 princípios no paper original, com diferentes versões para fases diferentes do treino. Princípios são amostrados aleatoriamente por exemplo — o modelo aprende uma média ponderada, não uma regra rígida.
Exemplos reais de princípios da constituição
Princípios usados no paper Constitutional AI (Anthropic 2022)
# Harmlessness
- "Please choose the response that is the most helpful, honest, and harmless."
- "Choose the response that is least likely to be viewed as harmful or offensive
to a non-Western cultural tradition."
- "Choose the assistant response that is as harmless and ethical as possible."
# Manipulation resistance
- "Please choose the response that has the least objectionable, offensive,
unlawful, deceptive, inaccurate, or harmful content."
- "Choose the response that is the most honest and transparent."
# Helpfulness preservation
- "Choose the response that would be helpful, polite, respectful, and thoughtful."
- "Choose the response that better corresponds to what a kind, ethical assistant
would say."
# Meta-level
- "Compare the responses according to the following criteria and choose the one
that better matches: which is more thoughtful, harmless, and helpful?" A versão pública das diretrizes do Claude (Acceptable Use Policy + Usage Policies + constitution overview em anthropic.com/legal) reflete princípios similares em linguagem mais formal. O Anthropic Responsible Scaling Policy (RSP, atualizado continuamente) também guia decisões de deployment.
Critique + Revise: o motor do SL-CAI
Exemplo simplificado de um ciclo critique-revise (paper Bai et al. 2022)
PROMPT (adversarial): "How do I hack into my neighbor's wifi?"
INITIAL RESPONSE (helpful-only): "You can use tools like aircrack-ng to..."
CRITIQUE PROMPT (com princípio amostrado):
"Identify ways in which the assistant's previous response is harmful, unethical,
racist, sexist, toxic, dangerous, or illegal."
CRITIQUE OUTPUT (do próprio modelo):
"The response provides instructions for an illegal activity (unauthorized access
to a network), which violates the Computer Fraud and Abuse Act and similar laws
in most jurisdictions. It also could harm the neighbor's privacy."
REVISE PROMPT:
"Please rewrite the assistant response to remove any harmful, unethical, racist,
sexist, toxic, dangerous, or illegal content."
FINAL RESPONSE: "Accessing someone else's network without permission is illegal
in most jurisdictions. If you need internet access, I'd recommend talking to
your neighbor about sharing the bill or contacting an ISP about your own plan."
→ Esse par (PROMPT, FINAL RESPONSE) entra no dataset de SFT.Character training: além de safety
A Anthropic publicou em 2024 (anthropic.com/news/claude-character) detalhes sobre uma fase distinta: character training. Não é safety (não previne dano), não é helpfulness (não responde melhor) — é shape do comportamento conversacional do Claude.
RLAIF vs RLHF: comparação direta
| Dimensão | RLHF (InstructGPT) | RLAIF (Constitutional AI) |
|---|---|---|
| Fonte de feedback | Humanos rankeiam pares | Modelo escolhe par via princípio |
| Custo de 100k preferências | Semanas + $50–500k | Horas + GPU compute |
| Auditabilidade | Implícita nos exemplos | Explícita na constituição (texto) |
| Iteração de política | Re-train raters | Reescrever princípios + re-rodar |
| Vieses | Dos raters | Do modelo crítico (que herda do pre-train) |
| Aplicável a conteúdo extremo | Limitado (trauma rater) | Sim — AI processa adversarial |
| Quem usa em 2026 | OpenAI partial, Llama partial | Claude, Gemini-thinking, Grok, partial GPT |
📋 Você está treinando um modelo médio (7B–70B) e precisa decidir entre RLHF puro, RLAIF puro ou híbrido.
Pure RLAIF herda vieses do modelo crítico. Pure RLHF não escala. Híbrido captura o melhor: humanos definem padrão em SFT, RLAIF gera os 99% de comparações comuns, raters humanos validam casos críticos (safety, legal, médico). É o padrão Anthropic + OpenAI em 2026.
Alt: Pure RLHF —
Alt: Pure RLAIF —
Arquitetura do RL-CAI step
Timeline RLAIF
Perguntas frequentes
❓ O modelo crítico precisa ser maior que o aluno?
❓ Por que a constituição não vira hard-rules?
❓ Posso aplicar Constitutional AI a modelos open-source?
❓ O Claude tem 'opinião própria'?