Observabilidade & SRE

Métricas RED/USE, OpenTelemetry, SLOs, error budgets, incident response — o que separa "fazer deploy" de operar sistema em produção.

8artigos

635XP total

🔍 Observability: os 3 pilares (logs, métricas, traces) e por que não basta

Os 3 pilares clássicos, por que "observability" > monitoring, cardinalidade, events como 4º pilar, profiles (pprof, Pyroscope) como 5º, o que realmente medir.

⏱ 15 min·+75 XP

→

📉 Métricas RED e USE: os frameworks que cobrem 90% dos casos

RED (Rate, Errors, Duration) para serviços, USE (Utilization, Saturation, Errors) para recursos, Golden Signals do Google SRE, quando aplicar cada um.

⏱ 14 min·+70 XP

→

🛰️ OpenTelemetry end-to-end: instrumentação app → backend

OpenTelemetry SDK (auto vs manual), Collector (receivers, processors, exporters), context propagation, resource detection, pipelines reais em Node, Python e Go.

⏱ 18 min·+90 XP

→

📝 Logs Estruturados: JSON, correlation IDs e levels com propósito

JSON logs, trace_id/span_id correlation, log levels (o que DEBUG, INFO, WARN, ERROR realmente significam), structured logging libs, formatter cost.

⏱ 14 min·+70 XP

→

🧵 Distributed Tracing: spans, baggage e sampling strategies

Spans, parent-child, context propagation (W3C Trace Context), baggage, head vs tail sampling, probabilistic vs rule-based, Jaeger e Tempo comparados.

⏱ 16 min·+80 XP

→

🎯 SLOs e Error Budgets: a contabilidade da confiabilidade

SLI → SLO → SLA, error budget, burn rate alerts multi-window/multi-burn, toil budget, política de freeze quando orçamento estoura.

⏱ 16 min·+80 XP

→

🚑 Incident Response: comando, comunicação e postmortem blameless

Incident Commander, Comms Lead, Ops Lead, timeline, postmortem blameless, 5 whys, action items com SLA, learning review mensal.

⏱ 16 min·+80 XP

→

🏁 Capstone: SLO + error budget + runbook reais

Projeto: definir SLIs (latency, availability) pra serviço real, calcular SLO (99.9%?), error budget mensal, alertas multi-burn-rate (fast/slow), runbook com ações por alerta, gameday simulado pra validar.

⏱ 20 min·+90 XP

→

Discussão

Carregando…

← Voltar à home