AI Safety, Red Teaming & Alinhamento

Para quem já sabe o básico e quer ir fundo. Aqui o assunto é como os modelos funcionam em produção: memória, roteamento, ferramentas, agentes. O lado técnico que pouca gente explica direito.

7artigos

435XP total

🛡️ AI Safety: por que importa pra engenheiro

Taxonomy: misuse, misalignment, misgeneralization. EU AI Act 2025. Corporate risk (reputational, legal). Engenheiro precisa entender pra operar IA em prod responsavelmente.

⏱ 12 min·+50 XP

→

🔓 Jailbreaks e prompt injection: taxonomia e defesas

Direct (DAN, role play), indirect (via tool output, RAG-poisoning), adversarial suffix (GCG), persona-based. Defenses: input/output filtering, system prompt hardening, constitutional classifier.

⏱ 14 min·+60 XP

→

🕵️ Data exfiltration via tools: o vetor principal em agents

Agent com tool access pode ser manipulado a vazar dados (prompt injection no conteúdo ingested). Defesa: tool scoping estrito, no-network sandboxing, PII scan em I/O, least privilege.

⏱ 13 min·+55 XP

→

📜 Constitutional AI: Anthropic approach

Constitutional AI (Anthropic, 2022): AI self-critique baseado em princípios escritos. RLAIF (RL from AI feedback). Core pra Claude safety. Aplicação: construir próprio sistema de críticos.

⏱ 13 min·+55 XP

→

🚧 Guardrails: NeMo, Llama Guard, Claude Guardrails

NVIDIA NeMo Guardrails (dialog flow + checks), Llama Guard (Meta classifier pra safety), Claude Built-in Guardrails. Implementation patterns em produção.

⏱ 13 min·+55 XP

→

🎯 Red team playbook: como atacar seu próprio LLM

Systematic red teaming: harm categories (Anthropic, DeepMind taxonomies), attack methods, reporting format. Automated red team (PyRIT Microsoft). Quando hire external red team.

⏱ 15 min·+65 XP

→

🏁 Capstone: red team do agent próprio

Pegue agent produção ou capstone anterior. Attacks sistemáticos: jailbreak (10 métodos), injection direct+indirect, data exfil via tools, PII leak, prompt stealing. Report com CVSS-ish severity + remediation.

⏱ 22 min·+95 XP

→

← Voltar à home