Toda empresa acha que tem "monitoring". Poucas têm observability. A diferença aparece no pior momento: 3 da manhã, alerta disparado, dashboard verde, mas os usuários falam que algo está quebrado. Monitoring te diz "o que foi quebrou?" somente se você pensou antes em medir essa coisa. Observability te deixa fazer perguntas novas sobre o sistema em tempo real.

Este módulo abre a trilha de observabilidade com os conceitos-chave: os 3 pilares clássicos (logs, métricas, traces), por que essa separação está mudando, o conceito de cardinalidade (e por que ela é cara), events como 4º pilar, e continuous profiling como 5º. Sem hype — o que efetivamente você deve ter no seu stack em 2026.

Monitoring vs Observability: a mudança conceitual

Monitoring é velho — vem dos anos 90, de sistemas monolíticos onde o operador sabia exatamente o que podia dar errado (disk cheio, CPU em 100%, serviço caiu). Você configurava alertas pra esses N cenários e pronto.

Observability (conceito da teoria de controle, Kalman 1960) começou a ser importada pra software em ~2017 (Honeycomb, Charity Majors). A tese: sistemas distribuídos modernos têm muito mais estados possíveis do que qualquer engenheiro consegue antecipar. Em vez de alertar sobre N coisas conhecidas, você instrumenta tudo o suficiente pra descobrir o que deu errado.

Dimensão	Monitoring	Observability
Perguntas	As que você previu	Qualquer pergunta ad-hoc
Dashboards	Fixos, por dashboard	Exploratórios, drill-down livre
Cardinalidade	Baixa (agregada)	Alta (contexto preservado)
Alertas	Baseados em thresholds absolutos	Baseados em SLO burn rates
Debugging	Grep em logs	Decompor evento por dimensão
Ferramentas típicas	Nagios, Zabbix, Prom	Honeycomb, Datadog, Tempo

DimensãoPerguntas

MonitoringAs que você previu

ObservabilityQualquer pergunta ad-hoc

DimensãoDashboards

MonitoringFixos, por dashboard

ObservabilityExploratórios, drill-down livre

DimensãoCardinalidade

MonitoringBaixa (agregada)

ObservabilityAlta (contexto preservado)

DimensãoAlertas

MonitoringBaseados em thresholds absolutos

ObservabilityBaseados em SLO burn rates

DimensãoDebugging

MonitoringGrep em logs

ObservabilityDecompor evento por dimensão

DimensãoFerramentas típicas

MonitoringNagios, Zabbix, Prom

ObservabilityHoneycomb, Datadog, Tempo

💡

Frase canônica: "Monitoring is for known unknowns; observability is for unknown unknowns." — Charity Majors. Sistemas distribuídos modernos falham de formas que ninguém previu no dia do deploy.

Os 3 pilares clássicos

Logs

▼

Metrics

▼

Traces

Pilar	Granularidade	Uso típico	Custo
Metrics	Agregado (contadores, histogramas)	Dashboards, alertas, SLOs	Barato — timeseries compactas
Logs	Por evento (texto/JSON)	Debugging detalhado, audit, forensics	Alto — volume cresce com tráfego
Traces	Por request (span tree)	Entender latência distribuída, root cause em microserviços	Médio — com sampling

PilarMetrics

GranularidadeAgregado (contadores, histogramas)

Uso típicoDashboards, alertas, SLOs

CustoBarato — timeseries compactas

PilarLogs

GranularidadePor evento (texto/JSON)

Uso típicoDebugging detalhado, audit, forensics

CustoAlto — volume cresce com tráfego

PilarTraces

GranularidadePor request (span tree)

Uso típicoEntender latência distribuída, root cause em microserviços

CustoMédio — com sampling

Exemplo: mesmo incidente visto pelos 3 pilares.

p99 checkout = 4.2s

Pergunta não respondida

slow query warn

Hipótese

POST /checkout (4.1s)

CartService.getCart (3.8s)

db.query (3.7s)

Os 3 pilares são complementares. Sozinhos, cada um é limitado. Juntos, permitem ir do "algo está lento" pro "essa query específica, nesse código, nesse deploy" em minutos.

Cardinalidade: o imposto oculto

Cardinalidade de uma métrica = número de combinações únicas de labels. Em Prometheus e similares, cada combinação é uma série temporal separada — com seu próprio buffer, índice e retenção.

# baixa cardinalidade — ok
http_requests_total{method="GET", status="200"} 12345
http_requests_total{method="POST", status="500"} 42
# ~ 6 métodos × 10 status = 60 séries, ok

# alta cardinalidade — PERIGO
http_requests_total{method, status, path, user_id} 1
# 5 métodos × 10 status × 500 paths × 1_000_000 user_ids = 25 bilhões de séries
# Prometheus capota. Latência de query em minutos.

Regras práticas pra labels de métricas:

Nunca use: user_id, email, session_id, trace_id, uuid, timestamp, URL completa com query params
OK: enum-like (method, status, region), low-cardinality features (tier: free/pro/ent, os: ios/android)
Máximo: 10-50k séries únicas por métrica em Prometheus
Se precisa alta cardinalidade: use events/traces (não métricas) ou TSDB moderno (VictoriaMetrics, Mimir, Cortex)

🚨

"Cardinality explosion" é o bug mais comum de observability. Dev adiciona label numa métrica ("seria legal ver por request"), deploy vai, 3h depois Prometheus OOMs. Investigue queries pesadas com .

Events: o 4º pilar (wide events, high cardinality)

Metrics são lossy (agregadas). Logs são textuais (difíceis de consultar estruturado). Traces são hierárquicos (bom pra latência). Wide events ficam no meio: cada request gera um evento JSON com 30-100 fields — user, tenant, version, region, cache hit, status, latency, feature flags, db stats, etc.

// um wide event por request (exemplo Honeycomb-style)
{
  "timestamp": "2026-04-16T14:23:45.123Z",
  "service": "checkout-api",
  "version": "v2.3.1-a4f8",
  "env": "production",
  "region": "us-east-1",
  "endpoint": "POST /checkout",
  "status": 200,
  "duration_ms": 423,
  "user_id": "u_42",
  "user_tier": "pro",
  "tenant_id": "acme-corp",
  "feature_flag.new_payment_flow": true,
  "feature_flag.cdn_enabled": false,
  "cart_items_count": 12,
  "cart_total_cents": 15000,
  "db.query_count": 5,
  "db.cache_hit_ratio": 0.8,
  "trace_id": "abc123...",
  "request_id": "req_xyz"
}

Com wide events, em 1 minuto no dashboard você pode: "mostre latência p99 por region E feature_flag.new_payment_flow E user_tier". Sem pré-agregação, sem dashboards pré-configurados. Honeycomb e Datadog (Continuous Profiler + RUM) são lideres; ferramentas open-source crescendo (Grafana Tempo aceita span events, ClickHouse + Vector é stack DIY popular).

💡

"Wide events are all you need": artigo polêmico da Charity Majors (2024) argumenta que com wide events + ferramenta de query decente, você pode derivar métricas, replicar traces, e substitui 80% dos dashboards tradicionais. Extremo, mas reflete o movimento: cardinalidade alta + query flexível > N sistemas separados.

Continuous profiling: o 5º pilar

Profiling tradicional: você liga em ambiente de staging, roda carga, analisa offline. Problema: bugs de performance em produção raramente reproduzem fora dela. Continuous profiling roda em produção com overhead <3% (via eBPF, instrumentação em runtime), gerando flamegraphs sempre disponíveis.

100% CPU — root

▼

65% — checkout_handler

▼

42% — getCartItems

▼

28% — db.query

▼

13% — paymentClient.charge

▼

8% — json.serialize

▼

25% — rateLimiter.check

Ferramenta	Tech	Uso
Pyroscope (Grafana)	eBPF + agents	Open-source, multi-lang, integrado com Grafana
Parca	eBPF puro	Open-source, foco em infra estilo K8s
Datadog Continuous Profiler	Agent proprietário	Enterprise, deep integration com APM
Google Cloud Profiler	SDK por language	Low-overhead, GCP native
Polar Signals	Parca commercial	Empresa por trás do Parca

FerramentaPyroscope (Grafana)

TecheBPF + agents

UsoOpen-source, multi-lang, integrado com Grafana

FerramentaParca

TecheBPF puro

UsoOpen-source, foco em infra estilo K8s

FerramentaDatadog Continuous Profiler

TechAgent proprietário

UsoEnterprise, deep integration com APM

FerramentaGoogle Cloud Profiler

TechSDK por language

UsoLow-overhead, GCP native

FerramentaPolar Signals

TechParca commercial

UsoEmpresa por trás do Parca

⚠️

Quando vale a pena: sua app tem bottlenecks intermitentes que não reproduzem em dev/staging. Traces mostram "db.query took 3s" mas você não sabe qual query. Com profiler, você vê o stack completo naquele momento.

O que montar em 2026: stack mínimo

Pilar	Open-source	Managed
Metrics	Prometheus + Grafana	Datadog, New Relic, Honeycomb, Chronosphere, Grafana Cloud
Logs	Loki, ELK stack, Vector + ClickHouse	Datadog Logs, Elastic Cloud, Grafana Cloud Logs
Traces	Tempo, Jaeger, Zipkin (legacy)	Honeycomb, Datadog APM, Lightstep
Events	ClickHouse + Vector + Grafana	Honeycomb (pioneer), Datadog CI, Axiom
Profiling	Pyroscope, Parca	Datadog, Polar Signals, GCP
Instrumentação	OpenTelemetry SDK + Collector	(mesma, padrão do mercado)

PilarMetrics

Open-sourcePrometheus + Grafana

ManagedDatadog, New Relic, Honeycomb, Chronosphere, Grafana Cloud

PilarLogs

Open-sourceLoki, ELK stack, Vector + ClickHouse

ManagedDatadog Logs, Elastic Cloud, Grafana Cloud Logs

PilarTraces

Open-sourceTempo, Jaeger, Zipkin (legacy)

ManagedHoneycomb, Datadog APM, Lightstep

PilarEvents

Open-sourceClickHouse + Vector + Grafana

ManagedHoneycomb (pioneer), Datadog CI, Axiom

PilarProfiling

Open-sourcePyroscope, Parca

ManagedDatadog, Polar Signals, GCP

PilarInstrumentação

Open-sourceOpenTelemetry SDK + Collector

Managed(mesma, padrão do mercado)

💡

Escolha de 2026: se você está começando, OpenTelemetry pra instrumentar (SDK unificado, export pra qualquer backend) + um dos "3 caminhos":

Custo: observability é cara (atente-se)

O maior trauma operacional pós-K8s é a fatura do Datadog. Alguns padrões pra não quebrar:

Sampling em traces: 1-10% em produção, 100% em staging. Rejeite spans de health checks.
Log levels apropriados: DEBUG nunca em prod. INFO moderado. Truncar fields gigantes.
Retention tiered: hot 7d, warm 30d, cold S3 90d+. Datadog permite; self-host precisa configurar.
Cardinalidade cap: Prometheus , Grafana Mimir limits per tenant.
Drop filtering: OTel Collector processor pra dropar spans/logs irrelevantes antes do backend.
Derived metrics: extrair métricas de logs (se é a mesma info, não duplique).

🚨

Regra prática: monitore o custo do monitoring. Dashboard com fatura mensal por pilar, alerta se passar do budget. Já teve startup que gastou mais em Datadog que em AWS compute.

Decisões reais

📋 Empresa small/mid começando do zero, equipe de 5-20 devs

✓ OpenTelemetry SDK + Grafana Cloud (LGTM) free tier

OTel te dá portabilidade — pode trocar backend sem recódigo. Grafana Cloud free tier é generoso (10k active series, 50GB logs/mês) pra começar. Quando escalar, upgrade ou self-host LGTM.

Alt: —

📋 Enterprise com compliance pesado, workloads sensíveis

✓ Self-host LGTM ou ELK + Jaeger, com access control granular

Data sensível não sai da nuvem. LGTM (ou ELK legacy) dá controle total. Custo operacional é alto — precisa de time dedicado. Mas é o único caminho pra workloads regulados (banking, health, defesa).

Alt: —

📋 App tem bottlenecks que só aparecem em produção com carga real

✓ Continuous profiling (Pyroscope ou Datadog Profiler)

Traces mostram 'db.query took 3s' mas não qual função chamou. Profiler mostra o stack completo com flamegraph. <3% overhead é negligível comparado ao tempo de debug economizado.

Alt: —

Perguntas típicas (Q&A)

Preciso dos 3 pilares desde o dia 1?

Sim, mas na ordem: métricas pra SLOs e alertas (sem isso não sabe se app tá viva), logs estruturados desde sempre (JSON com correlation id), traces quando tiver mais de 2 serviços. Profiling quando problemas ficam sutis.

OpenTelemetry é mandatório?

Se começa novo em 2026: sim, é o padrão da CNCF. Auto-instrumentação pra maioria das libs existe. Permite trocar backend sem tocar código. Legado: considere migração gradual via OTel Collector que aceita formatos antigos.

High cardinality sempre é problema?

Em métricas tradicionais (Prometheus), sim. Em eventos/traces, é o que dá poder — você quer contexto rico. A distinção é crucial: não meta user_id em Prometheus metric, mas meta sim em todo span/evento.

Logs ainda importam ou só eventos?

Logs estruturados são eventos. A distinção antiga (logs = text file) virou histórica. JSON logs com os fields certos = events. A indústria tá convergindo — OTel Logs é basicamente "wide event" padronizado.

Como testar observability em pre-prod?

Injete falhas intencionalmente (Chaos Engineering: Gremlin, Litmus). Se você simula disco cheio, DB lento, pod mort — todas as dimensões do dashboard devem acender. Se algo passa despercebido, falta instrumentação ou alerta.

✅

Take-aways:

Próximo módulo: os frameworks que te dizem o que medir — RED e USE.

Monitoring vs Observability: a mudança conceitual

Dimensão	Monitoring	Observability
Perguntas	As que você previu	Qualquer pergunta ad-hoc
Dashboards	Fixos, por dashboard	Exploratórios, drill-down livre
Cardinalidade	Baixa (agregada)	Alta (contexto preservado)
Alertas	Baseados em thresholds absolutos	Baseados em SLO burn rates
Debugging	Grep em logs	Decompor evento por dimensão
Ferramentas típicas	Nagios, Zabbix, Prom	Honeycomb, Datadog, Tempo

DimensãoPerguntas

MonitoringAs que você previu

ObservabilityQualquer pergunta ad-hoc

DimensãoDashboards

MonitoringFixos, por dashboard

ObservabilityExploratórios, drill-down livre

DimensãoCardinalidade

MonitoringBaixa (agregada)

ObservabilityAlta (contexto preservado)

DimensãoAlertas

MonitoringBaseados em thresholds absolutos

ObservabilityBaseados em SLO burn rates

DimensãoDebugging

MonitoringGrep em logs

ObservabilityDecompor evento por dimensão

DimensãoFerramentas típicas

MonitoringNagios, Zabbix, Prom

ObservabilityHoneycomb, Datadog, Tempo

💡

Frase canônica: "Monitoring is for known unknowns; observability is for unknown unknowns." — Charity Majors. Sistemas distribuídos modernos falham de formas que ninguém previu no dia do deploy.

Os 3 pilares clássicos

Logs

▼

Metrics

▼

Traces

Pilar	Granularidade	Uso típico	Custo
Metrics	Agregado (contadores, histogramas)	Dashboards, alertas, SLOs	Barato — timeseries compactas
Logs	Por evento (texto/JSON)	Debugging detalhado, audit, forensics	Alto — volume cresce com tráfego
Traces	Por request (span tree)	Entender latência distribuída, root cause em microserviços	Médio — com sampling

PilarMetrics

GranularidadeAgregado (contadores, histogramas)

Uso típicoDashboards, alertas, SLOs

CustoBarato — timeseries compactas

PilarLogs

GranularidadePor evento (texto/JSON)

Uso típicoDebugging detalhado, audit, forensics

CustoAlto — volume cresce com tráfego

PilarTraces

GranularidadePor request (span tree)

Uso típicoEntender latência distribuída, root cause em microserviços

CustoMédio — com sampling

Exemplo: mesmo incidente visto pelos 3 pilares.

p99 checkout = 4.2s

Pergunta não respondida

slow query warn

Hipótese

POST /checkout (4.1s)

CartService.getCart (3.8s)

db.query (3.7s)

Os 3 pilares são complementares. Sozinhos, cada um é limitado. Juntos, permitem ir do "algo está lento" pro "essa query específica, nesse código, nesse deploy" em minutos.

Cardinalidade: o imposto oculto

# baixa cardinalidade — ok
http_requests_total{method="GET", status="200"} 12345
http_requests_total{method="POST", status="500"} 42
# ~ 6 métodos × 10 status = 60 séries, ok

# alta cardinalidade — PERIGO
http_requests_total{method, status, path, user_id} 1
# 5 métodos × 10 status × 500 paths × 1_000_000 user_ids = 25 bilhões de séries
# Prometheus capota. Latência de query em minutos.

Regras práticas pra labels de métricas:

Nunca use: user_id, email, session_id, trace_id, uuid, timestamp, URL completa com query params
OK: enum-like (method, status, region), low-cardinality features (tier: free/pro/ent, os: ios/android)
Máximo: 10-50k séries únicas por métrica em Prometheus
Se precisa alta cardinalidade: use events/traces (não métricas) ou TSDB moderno (VictoriaMetrics, Mimir, Cortex)

🚨

"Cardinality explosion" é o bug mais comum de observability. Dev adiciona label numa métrica ("seria legal ver por request"), deploy vai, 3h depois Prometheus OOMs. Investigue queries pesadas com .

Events: o 4º pilar (wide events, high cardinality)

// um wide event por request (exemplo Honeycomb-style)
{
  "timestamp": "2026-04-16T14:23:45.123Z",
  "service": "checkout-api",
  "version": "v2.3.1-a4f8",
  "env": "production",
  "region": "us-east-1",
  "endpoint": "POST /checkout",
  "status": 200,
  "duration_ms": 423,
  "user_id": "u_42",
  "user_tier": "pro",
  "tenant_id": "acme-corp",
  "feature_flag.new_payment_flow": true,
  "feature_flag.cdn_enabled": false,
  "cart_items_count": 12,
  "cart_total_cents": 15000,
  "db.query_count": 5,
  "db.cache_hit_ratio": 0.8,
  "trace_id": "abc123...",
  "request_id": "req_xyz"
}

💡

Continuous profiling: o 5º pilar

100% CPU — root

▼

65% — checkout_handler

▼

42% — getCartItems

▼

28% — db.query

▼

13% — paymentClient.charge

▼

8% — json.serialize

▼

25% — rateLimiter.check

Ferramenta	Tech	Uso
Pyroscope (Grafana)	eBPF + agents	Open-source, multi-lang, integrado com Grafana
Parca	eBPF puro	Open-source, foco em infra estilo K8s
Datadog Continuous Profiler	Agent proprietário	Enterprise, deep integration com APM
Google Cloud Profiler	SDK por language	Low-overhead, GCP native
Polar Signals	Parca commercial	Empresa por trás do Parca

FerramentaPyroscope (Grafana)

TecheBPF + agents

UsoOpen-source, multi-lang, integrado com Grafana

FerramentaParca

TecheBPF puro

UsoOpen-source, foco em infra estilo K8s

FerramentaDatadog Continuous Profiler

TechAgent proprietário

UsoEnterprise, deep integration com APM

FerramentaGoogle Cloud Profiler

TechSDK por language

UsoLow-overhead, GCP native

FerramentaPolar Signals

TechParca commercial

UsoEmpresa por trás do Parca

⚠️

O que montar em 2026: stack mínimo

Pilar	Open-source	Managed
Metrics	Prometheus + Grafana	Datadog, New Relic, Honeycomb, Chronosphere, Grafana Cloud
Logs	Loki, ELK stack, Vector + ClickHouse	Datadog Logs, Elastic Cloud, Grafana Cloud Logs
Traces	Tempo, Jaeger, Zipkin (legacy)	Honeycomb, Datadog APM, Lightstep
Events	ClickHouse + Vector + Grafana	Honeycomb (pioneer), Datadog CI, Axiom
Profiling	Pyroscope, Parca	Datadog, Polar Signals, GCP
Instrumentação	OpenTelemetry SDK + Collector	(mesma, padrão do mercado)

PilarMetrics

Open-sourcePrometheus + Grafana

ManagedDatadog, New Relic, Honeycomb, Chronosphere, Grafana Cloud

PilarLogs

Open-sourceLoki, ELK stack, Vector + ClickHouse

ManagedDatadog Logs, Elastic Cloud, Grafana Cloud Logs

PilarTraces

Open-sourceTempo, Jaeger, Zipkin (legacy)

ManagedHoneycomb, Datadog APM, Lightstep

PilarEvents

Open-sourceClickHouse + Vector + Grafana

ManagedHoneycomb (pioneer), Datadog CI, Axiom

PilarProfiling

Open-sourcePyroscope, Parca

ManagedDatadog, Polar Signals, GCP

PilarInstrumentação

Open-sourceOpenTelemetry SDK + Collector

Managed(mesma, padrão do mercado)

💡

Escolha de 2026: se você está começando, OpenTelemetry pra instrumentar (SDK unificado, export pra qualquer backend) + um dos "3 caminhos":

Custo: observability é cara (atente-se)

O maior trauma operacional pós-K8s é a fatura do Datadog. Alguns padrões pra não quebrar:

Sampling em traces: 1-10% em produção, 100% em staging. Rejeite spans de health checks.
Log levels apropriados: DEBUG nunca em prod. INFO moderado. Truncar fields gigantes.
Retention tiered: hot 7d, warm 30d, cold S3 90d+. Datadog permite; self-host precisa configurar.
Cardinalidade cap: Prometheus , Grafana Mimir limits per tenant.
Drop filtering: OTel Collector processor pra dropar spans/logs irrelevantes antes do backend.
Derived metrics: extrair métricas de logs (se é a mesma info, não duplique).

🚨

Regra prática: monitore o custo do monitoring. Dashboard com fatura mensal por pilar, alerta se passar do budget. Já teve startup que gastou mais em Datadog que em AWS compute.

Decisões reais

📋 Empresa small/mid começando do zero, equipe de 5-20 devs

✓ OpenTelemetry SDK + Grafana Cloud (LGTM) free tier

OTel te dá portabilidade — pode trocar backend sem recódigo. Grafana Cloud free tier é generoso (10k active series, 50GB logs/mês) pra começar. Quando escalar, upgrade ou self-host LGTM.

Alt: —

📋 Enterprise com compliance pesado, workloads sensíveis

✓ Self-host LGTM ou ELK + Jaeger, com access control granular

Alt: —

📋 App tem bottlenecks que só aparecem em produção com carga real

✓ Continuous profiling (Pyroscope ou Datadog Profiler)

Traces mostram 'db.query took 3s' mas não qual função chamou. Profiler mostra o stack completo com flamegraph. <3% overhead é negligível comparado ao tempo de debug economizado.

Alt: —

Perguntas típicas (Q&A)

Preciso dos 3 pilares desde o dia 1?

OpenTelemetry é mandatório?

High cardinality sempre é problema?

Logs ainda importam ou só eventos?

Como testar observability em pre-prod?

✅

Take-aways:

Próximo módulo: os frameworks que te dizem o que medir — RED e USE.

Observability: os 3 pilares (logs, métricas, traces) e por que não basta

Monitoring vs Observability: a mudança conceitual

Os 3 pilares clássicos

Cardinalidade: o imposto oculto

Events: o 4º pilar (wide events, high cardinality)

Continuous profiling: o 5º pilar

O que montar em 2026: stack mínimo

Custo: observability é cara (atente-se)

Decisões reais

Perguntas típicas (Q&A)

Próximos passos sugeridos

Discussão

Observability: os 3 pilares (logs, métricas, traces) e por que não basta

Monitoring vs Observability: a mudança conceitual

Os 3 pilares clássicos

Cardinalidade: o imposto oculto

Events: o 4º pilar (wide events, high cardinality)

Continuous profiling: o 5º pilar

O que montar em 2026: stack mínimo

Custo: observability é cara (atente-se)

Decisões reais

Perguntas típicas (Q&A)

Próximos passos sugeridos

Discussão