Monitoramento: CloudWatch, CloudTrail e Config
Observabilidade na AWS se apoia em 3 pilares: métricas (CloudWatch), auditoria de API (CloudTrail) e estado de configuração (Config). Cada um responde a uma pergunta diferente. Misturá-los é um dos erros mais comuns no CLF-C02.
Onde isso entra no exame
Monitoramento aparece em cerca de 15% do domínio 3, geralmente em formato "qual serviço respondo para esta pergunta". Decore: métrica/log → CloudWatch; API call → CloudTrail; drift de config → Config.
A trindade da observabilidade
Amazon CloudWatch
Três sub-serviços principais:
| Sub-serviço | O que coleta | Uso típico |
|---|---|---|
| Metrics | Pontos numéricos ao longo do tempo | CPU, disk, network, latência ALB, throttling Lambda |
| Logs | Linhas de log de apps / serviços | Logs do Lambda, CloudTrail, VPC Flow Logs |
| Events / EventBridge | Eventos em tempo real (ex: EC2 state change) | Triggers para Lambda, SQS, Step Functions |
Outros componentes:
- • — thresholds em métricas disparam ações
- • — visualização customizada
- • — query SQL-like em logs (pay-per-query)
- • — métricas para ECS/EKS
- • — métricas estendidas para Lambda
- • — canários que simulam requisições de usuário
- • — telemetria de navegadores reais
Métricas detalhadas vs básicas
| Tipo | Intervalo | Custo | Uso |
|---|---|---|---|
| Basic (padrão) | 5 minutos | Grátis | Workloads com mudança lenta |
| Detailed Monitoring | 1 minuto | Pago | Cargas com picos rápidos, Auto Scaling responsivo |
| High-resolution custom metrics | 1 segundo | Pago | APM, apps críticas |
Exame: EC2 só publica métricas de fora da instância (CPU, network, disk I/O). Para métricas internas (memória, disk usage real), você instala o .
AWS CloudTrail
Todas as chamadas de API na conta são registradas: quem (IAM principal), quando, IP de origem, o que foi chamado, com quais parâmetros, o resultado. Por padrão, Event History mantém 90 dias grátis.
Para retenção longa e queries avançadas:
- • Criar um que entrega eventos a S3 (retenção ilimitada)
- • Habilitar (SHA-256 de integridade)
- • Integrar com CloudWatch Logs para alertas em tempo real
- • Usar para queries SQL em eventos históricos
Tipos de evento:
- • — operações no control plane (create/delete recursos). Habilitado por padrão.
- • — operações no data plane (S3 GetObject, Lambda Invoke). Desabilitado por padrão (custo).
- • — detecta atividade incomum via ML.
AWS Config
Registra o estado de configuração de cada recurso ao longo do tempo. Permite responder: "como estava esta Security Group em 15/abril às 14:00?". Integra com regras (Config Rules) que avaliam compliance continuamente.
Componentes:
- • — captura snapshots de recursos
- • — snapshots versionados
- • — managed (AWS) ou custom (Lambda) que avaliam compliance
- • — ações automáticas para corrigir drift (ex: habilitar versioning)
- • — coleções de rules (ex: PCI-DSS, HIPAA)
- • — consolidam dados de múltiplas contas/Regiões
VPC Flow Logs
Registram metadata de todo tráfego que passa por uma VPC, subnet ou ENI. Entregues a CloudWatch Logs ou S3. Úteis para troubleshooting de conectividade, forensics e análise de custos de transferência.
2 123456789012 eni-abc 10.0.1.5 54.210.x.x 443 49152 6 20 4500 1711456789 1711456819 ACCEPT OKX-Ray — tracing distribuído
Para apps microservices/serverless, X-Ray traceia uma requisição passando por vários serviços (API GW → Lambda → RDS), identificando latência e erros em cada salto. Integra com SDKs Java, Python, Node, Go, etc.
Cenários de decisão
📋 Alertar em Slack se latência da ALB ultrapassar 500ms por 2 min
Alarm avalia métrica ALB.TargetResponseTime. SNS notifica assinantes. Lambda formata payload para Slack.
📋 Descobrir quem deletou um IAM Role crítico 3 dias atrás
CloudTrail registra quem (ARN do caller), quando e de onde a chamada DeleteRole foi feita. Event History grátis cobre 90 dias.
📋 Garantir que todos os buckets S3 tenham criptografia default sempre ligada
Config detecta drift e a remediation action pode automaticamente habilitar encryption. Avaliação contínua em vez de snapshot pontual.
📋 Troubleshoot: API em Lambda lenta e não sei se o gargalo é DynamoDB, Lambda ou API GW
X-Ray rastreia a requisição em todos os saltos, mostrando o tempo em cada segmento. Visual timeline identifica o verdadeiro gargalo.
Exemplos de CLI
# CloudWatch — criar alarme de CPU
aws cloudwatch put-metric-alarm \
--alarm-name high-cpu \
--metric-name CPUUtilization \
--namespace AWS/EC2 \
--statistic Average --period 60 \
--threshold 80 --comparison-operator GreaterThanThreshold \
--evaluation-periods 3 \
--alarm-actions arn:aws:sns:...:avisos \
--dimensions Name=InstanceId,Value=i-abc123
# CloudTrail — criar trail
aws cloudtrail create-trail \
--name meu-trail \
--s3-bucket-name meu-bucket-trails
# Config — status do recorder
aws configservice describe-configuration-recordersPegadinha: CloudWatch Events foi renomeado para EventBridge (funcionalmente o mesmo + mais features, como schema registry e custom event buses). O exame pode mencionar os dois nomes.
Perguntas típicas (Q&A)
❓ CloudWatch Logs pode receber logs de quê?
❓ Como a AWS garante que os logs de CloudTrail não foram adulterados?
❓ Qual serviço dispara uma Lambda quando uma EC2 muda de estado para 'running'?
❓ Como visualizar custos por tag?
Take-aways: CloudWatch = métricas + logs + alarms. CloudTrail = audit de API calls (90 dias grátis, ilimitado no S3). Config = estado de configuração + rules de compliance + remediation. VPC Flow Logs = tráfego de rede. X-Ray = tracing distribuído. EventBridge = reage a eventos em tempo real. Para memória/disk interno EC2 = CloudWatch Agent.
Próximos passos sugeridos
Discussão
Carregando…