Blog
Observabilidade & SRE
Para quem já sabe o básico e quer ir fundo. Aqui o assunto é como os modelos funcionam em produção: memória, roteamento, ferramentas, agentes. O lado técnico que pouca gente explica direito.
🔍 Observability: os 3 pilares (logs, métricas, traces) e por que não basta
Os 3 pilares clássicos, por que "observability" > monitoring, cardinalidade, events como 4º pilar, profiles (pprof, Pyroscope) como 5º, o que realmente medir.
📉 Métricas RED e USE: os frameworks que cobrem 90% dos casos
RED (Rate, Errors, Duration) para serviços, USE (Utilization, Saturation, Errors) para recursos, Golden Signals do Google SRE, quando aplicar cada um.
🛰️ OpenTelemetry end-to-end: instrumentação app → backend
OpenTelemetry SDK (auto vs manual), Collector (receivers, processors, exporters), context propagation, resource detection, pipelines reais em Node, Python e Go.
📝 Logs Estruturados: JSON, correlation IDs e levels com propósito
JSON logs, trace_id/span_id correlation, log levels (o que DEBUG, INFO, WARN, ERROR realmente significam), structured logging libs, formatter cost.
🧵 Distributed Tracing: spans, baggage e sampling strategies
Spans, parent-child, context propagation (W3C Trace Context), baggage, head vs tail sampling, probabilistic vs rule-based, Jaeger e Tempo comparados.
🎯 SLOs e Error Budgets: a contabilidade da confiabilidade
SLI → SLO → SLA, error budget, burn rate alerts multi-window/multi-burn, toil budget, política de freeze quando orçamento estoura.
🚑 Incident Response: comando, comunicação e postmortem blameless
Incident Commander, Comms Lead, Ops Lead, timeline, postmortem blameless, 5 whys, action items com SLA, learning review mensal.