AI Engineering Avançado: RLHF & Agents em Produção

Para quem já sabe o básico e quer ir fundo. Aqui o assunto é como os modelos funcionam em produção: memória, roteamento, ferramentas, agentes. O lado técnico que pouca gente explica direito.

12artigos

860XP total

🎯 RLHF do zero: PPO, KL penalty, reward hacking

A pipeline RLHF do InstructGPT/ChatGPT explicada matematicamente. PPO (Proximal Policy Optimization), KL divergence penalty, reward model training, advantage estimation. Por que reward hacking é o pesadelo de quem treina.

⏱ 16 min·+80 XP

→

🤖 RLAIF / Constitutional AI: como Anthropic treina o Claude

Constitutional AI da Anthropic: substitui human feedback por AI feedback via princípios escritos. Como o Claude é treinado, harmlessness training, character training. Paper Constitutional AI 2022 + atualizações 2025/2026.

⏱ 15 min·+75 XP

→

⚖️ DPO vs IPO vs KTO: alinhamento sem reward model

A revolução pós-RLHF: Direct Preference Optimization (Rafailov, NeurIPS 2023), IPO (Identity Preference Optimization), KTO (Kahneman-Tversky Optimization). Quando cada um vence — implementação na TRL da HuggingFace.

⏱ 15 min·+75 XP

→

🚀 GRPO e DeepSeek-R1: o salto reasoning de 2025

Group Relative Policy Optimization (GRPO) — o algoritmo que destravou reasoning emergente em DeepSeek-R1. Por que dispensa reward model. Como reproduzir com Unsloth/Axolotl em 2026.

⏱ 16 min·+80 XP

→

🧠 Reasoning models por dentro: o1, o3, R1, Gemini Thinking

Test-time compute, chain-of-thought interno, hidden reasoning tokens, budget control. Como o1 da OpenAI funciona, Claude com extended thinking, Gemini Thinking, DeepSeek-R1 — comparativo arquitetural.

⏱ 14 min·+70 XP

→

🐝 Agent swarms: CrewAI, AutoGen, OpenAI Swarm

Os 3 frameworks dominantes de agent orchestration em 2026 — comparativo e quando usar cada. CrewAI hierarchical, AutoGen v0.4 conversational, OpenAI Swarm minimal. Patterns: supervisor, debate, voting, ReAct.

⏱ 14 min·+70 XP

→

🕸️ LangGraph: agentes como state machines (com cycles)

Agentes como grafos de estado com ciclos — diferente de DAG do Airflow. LangGraph patterns: human-in-loop, persistent state, time travel, subgraphs. Por que LangChain abandonou o LangChain Expression Language.

⏱ 15 min·+75 XP

→

🎼 Multi-agent orchestration patterns avançados

Patterns que funcionam em produção: hierarchical (manager/workers), debate (2 agents adversariais convergem), voting (N agents → consensus), router-based, planner-executor. Quando NÃO usar multi-agent (90% dos casos).

⏱ 14 min·+70 XP

→

🔭 Agent observability: LangSmith, Helicone, Phoenix Arize

Você não pode debugar o que não vê. Trace de agent runs (spans hierárquicos), prompt versioning, dataset capture, A/B testing de prompts em produção. LangSmith vs Helicone vs Phoenix vs Langfuse.

⏱ 13 min·+65 XP

→

📏 Agent evaluation em produção: golden sets vs LLM-as-judge

Avaliar agente é mais difícil que avaliar LLM single-turn. Golden trajectories vs LLM-as-judge, eval em CI (regression de agente), agent-arena style benchmarks, custom rubrics. Por que human eval ainda é o ground truth.

⏱ 14 min·+70 XP

→

💸 Custo de agente: $/action, prompt cache, cascade routing

Agente sai US$50/mês por usuário se não otimizar. Anthropic prompt caching (90% off), OpenAI cached input, cascade routing (Haiku → Sonnet → Opus por confiança), context compression. Modelo de custo por agent action.

⏱ 12 min·+60 XP

→

🛡️ Agent security: prompt injection, jailbreak, tool abuse

Indirect prompt injection (dados envenenados), jailbreak resistance, tool abuse (agente faz ação destrutiva), Spotlight from Microsoft, sandboxing de tools, allowlist de domínios. OWASP LLM Top 10 atualizado 2026.

⏱ 14 min·+70 XP

→

← Voltar à home