Blog
Para quem já sabe o básico e quer ir fundo. Aqui o assunto é como os modelos funcionam em produção: memória, roteamento, ferramentas, agentes. O lado técnico que pouca gente explica direito.
Taxonomy: misuse, misalignment, misgeneralization. EU AI Act 2025. Corporate risk (reputational, legal). Engenheiro precisa entender pra operar IA em prod responsavelmente.
Direct (DAN, role play), indirect (via tool output, RAG-poisoning), adversarial suffix (GCG), persona-based. Defenses: input/output filtering, system prompt hardening, constitutional classifier.
Agent com tool access pode ser manipulado a vazar dados (prompt injection no conteúdo ingested). Defesa: tool scoping estrito, no-network sandboxing, PII scan em I/O, least privilege.
Constitutional AI (Anthropic, 2022): AI self-critique baseado em princípios escritos. RLAIF (RL from AI feedback). Core pra Claude safety. Aplicação: construir próprio sistema de críticos.
NVIDIA NeMo Guardrails (dialog flow + checks), Llama Guard (Meta classifier pra safety), Claude Built-in Guardrails. Implementation patterns em produção.
Systematic red teaming: harm categories (Anthropic, DeepMind taxonomies), attack methods, reporting format. Automated red team (PyRIT Microsoft). Quando hire external red team.
Pegue agent produção ou capstone anterior. Attacks sistemáticos: jailbreak (10 métodos), injection direct+indirect, data exfil via tools, PII leak, prompt stealing. Report com CVSS-ish severity + remediation.