Blog
Para quem já sabe o básico e quer ir fundo. Aqui o assunto é como os modelos funcionam em produção: memória, roteamento, ferramentas, agentes. O lado técnico que pouca gente explica direito.
A pipeline RLHF do InstructGPT/ChatGPT explicada matematicamente. PPO (Proximal Policy Optimization), KL divergence penalty, reward model training, advantage estimation. Por que reward hacking é o pesadelo de quem treina.
Constitutional AI da Anthropic: substitui human feedback por AI feedback via princípios escritos. Como o Claude é treinado, harmlessness training, character training. Paper Constitutional AI 2022 + atualizações 2025/2026.
A revolução pós-RLHF: Direct Preference Optimization (Rafailov, NeurIPS 2023), IPO (Identity Preference Optimization), KTO (Kahneman-Tversky Optimization). Quando cada um vence — implementação na TRL da HuggingFace.
Group Relative Policy Optimization (GRPO) — o algoritmo que destravou reasoning emergente em DeepSeek-R1. Por que dispensa reward model. Como reproduzir com Unsloth/Axolotl em 2026.
Test-time compute, chain-of-thought interno, hidden reasoning tokens, budget control. Como o1 da OpenAI funciona, Claude com extended thinking, Gemini Thinking, DeepSeek-R1 — comparativo arquitetural.
Os 3 frameworks dominantes de agent orchestration em 2026 — comparativo e quando usar cada. CrewAI hierarchical, AutoGen v0.4 conversational, OpenAI Swarm minimal. Patterns: supervisor, debate, voting, ReAct.
Agentes como grafos de estado com ciclos — diferente de DAG do Airflow. LangGraph patterns: human-in-loop, persistent state, time travel, subgraphs. Por que LangChain abandonou o LangChain Expression Language.
Patterns que funcionam em produção: hierarchical (manager/workers), debate (2 agents adversariais convergem), voting (N agents → consensus), router-based, planner-executor. Quando NÃO usar multi-agent (90% dos casos).
Você não pode debugar o que não vê. Trace de agent runs (spans hierárquicos), prompt versioning, dataset capture, A/B testing de prompts em produção. LangSmith vs Helicone vs Phoenix vs Langfuse.
Avaliar agente é mais difícil que avaliar LLM single-turn. Golden trajectories vs LLM-as-judge, eval em CI (regression de agente), agent-arena style benchmarks, custom rubrics. Por que human eval ainda é o ground truth.
Agente sai US$50/mês por usuário se não otimizar. Anthropic prompt caching (90% off), OpenAI cached input, cascade routing (Haiku → Sonnet → Opus por confiança), context compression. Modelo de custo por agent action.
Indirect prompt injection (dados envenenados), jailbreak resistance, tool abuse (agente faz ação destrutiva), Spotlight from Microsoft, sandboxing de tools, allowlist de domínios. OWASP LLM Top 10 atualizado 2026.