Blog
Métricas RED/USE, OpenTelemetry, SLOs, error budgets, incident response — o que separa "fazer deploy" de operar sistema em produção.
Os 3 pilares clássicos, por que "observability" > monitoring, cardinalidade, events como 4º pilar, profiles (pprof, Pyroscope) como 5º, o que realmente medir.
RED (Rate, Errors, Duration) para serviços, USE (Utilization, Saturation, Errors) para recursos, Golden Signals do Google SRE, quando aplicar cada um.
OpenTelemetry SDK (auto vs manual), Collector (receivers, processors, exporters), context propagation, resource detection, pipelines reais em Node, Python e Go.
JSON logs, trace_id/span_id correlation, log levels (o que DEBUG, INFO, WARN, ERROR realmente significam), structured logging libs, formatter cost.
Spans, parent-child, context propagation (W3C Trace Context), baggage, head vs tail sampling, probabilistic vs rule-based, Jaeger e Tempo comparados.
SLI → SLO → SLA, error budget, burn rate alerts multi-window/multi-burn, toil budget, política de freeze quando orçamento estoura.
Incident Commander, Comms Lead, Ops Lead, timeline, postmortem blameless, 5 whys, action items com SLA, learning review mensal.
Projeto: definir SLIs (latency, availability) pra serviço real, calcular SLO (99.9%?), error budget mensal, alertas multi-burn-rate (fast/slow), runbook com ações por alerta, gameday simulado pra validar.
Carregando…