Blog
Para quem já sabe o básico e quer ir fundo. Aqui o assunto é como os modelos funcionam em produção: memória, roteamento, ferramentas, agentes. O lado técnico que pouca gente explica direito.
Principles of Chaos (Netflix manifesto). Steady-state hypothesis, vary real-world events, run in production (com cuidado), minimize blast radius, automatize experiments.
Netflix Chaos Monkey (kill instances), Chaos Kong (region failure), Chaos Gorilla (AZ failure). Gremlin SaaS com GUI. ChaosToolkit open source. Quando cada.
LitmusChaos CNCF incubating. Pod delete, node drain, network chaos, disk fill, resource stress. ChaosHub (library experiments). Integration com Prometheus/Grafana.
Game day = chaos experiment manual com time. Script com hypothesis, scope, abort criteria, timeline. Facilitator + observers. Postmortem. Google SRE book capítulo.
Network (latency, packet loss via tc), CPU/memory pressure (stress-ng), disk fill, clock skew. Service mesh (Istio fault injection), AWS FIS (Fault Injection Simulator).
Rodar experiment em sistema próprio: hypothesis, scope, abort criteria, execute, observe, document. Entregáveis: runbook + findings + action items + melhorias de resiliência.