Disaster Recovery: RPO, RTO e 4 Estratégias
DR não é “fazer backup”. É a capacidade de reconstruir a operação após desastre maior (região AWS offline, ataque ransomware, deleção massiva). Negócio define duas constantes: RPO (quanta perda de dado é aceitável) e RTO (quanto tempo pode ficar fora). Essas duas medidas direcionam qual das 4 estratégias implementar.
Definições que caem no exame
t = -RPO t = 0 (desastre) t = +RTO
│ │ │
▼ ▼ ▼
Último Sistema Sistema
backup cai restaurado
válido
│←─── dados perdidos ────→│←── tempo parado ──→│
(max aceitável = RPO) (max aceitável = RTO)As 4 estratégias de DR
| Estratégia | RPO típico | RTO típico | Custo | Como funciona |
|---|---|---|---|---|
| Backup & Restore | horas | horas | $ | Backups regulares para outra região. Restaurar infra + dados sob demanda. |
| Pilot Light | minutos | 10–30 min | $$ | Dados replicados + infra crítica mínima rodando. Escala em disaster. |
| Warm Standby | segundos–minutos | minutos | $$$ | Stack funcional com capacidade reduzida. Failover + scale up. |
| Multi-Site Active-Active | ~zero | segundos | $$$$ | Duas (ou mais) regiões rodando plena capacidade, balanceando tráfego. |
Backup & Restore: Secondary região = vazia. Só tem snapshots.
└── "construir tudo do zero"
Pilot Light: Secondary = DB replicando + AMIs prontas
└── "fogo piloto aceso; acender resto rápido"
Warm Standby: Secondary = aplicação rodando em tamanho 20%
└── "pronto mas aquecido; só scale up"
Multi-Site: Secondary = capacidade total, recebendo tráfego
└── "nenhum 'secondary' — duas primárias"Backup & Restore — simples e barato
Pilot Light — mínimo aquecido
Metáfora: chama mínima aguardando para acender o resto. Banco replicando em tempo real, AMIs prontas, mas sem instâncias rodando (exceto DB). Em caso de desastre, escalar compute layer rapidamente.
Warm Standby — stack reduzida ativa
Secondary região tem aplicação rodando com capacidade reduzida (ex: 20% da primary). Pode receber tráfego de teste constante (canary). Em failover, Route 53 muda DNS e ASG escala para capacidade total.
Multi-Site Active-Active — zero downtime
Duas regiões em capacidade plena, balanceando tráfego via Route 53 (latency/geo routing) ou Global Accelerator. Se uma cair, a outra absorve tudo. Exige data layer multi-master (DynamoDB Global Tables, Aurora Global com promotion rápida ou eventual consistency tolerada).
AWS Backup — o orquestrador
Route 53 — o DNS que faz failover
AWS Elastic Disaster Recovery (DRS)
DRS replica continuamente servers on-premises ou em outra cloud para EC2 dormente. Em failover, lança as instâncias replicadas. RPO em segundos, RTO em minutos. Custo baixo pois compute só roda em drill/failover.
Cenários arquiteturais comuns
📋 Plataforma de saúde — nunca pode perder consulta marcada (RPO ~0) e tolera 2 minutos de downtime
Aurora Global RPO <1s. Multi-Site garante infra já provisionada. Route 53 com health check automatiza switch.
📋 Blog de conteúdo — tolera 24h de dados perdidos e 4h offline
Baixo custo, RPO/RTO folgados. Blog pode ser restaurado do snapshot.
📋 Data center on-prem com 50 VMs críticas, negócio quer migrar DR para AWS
DRS replica continuamente para EC2 dormente. Drill de failover sem impactar primary. Custo baixo até ativar.
Q&A estilo exame
❓ Como reduzir RTO em cenário Pilot Light que hoje leva 45min?
❓ AWS Backup vs snapshot nativo: quando escolher qual?
❓ Como testar DR sem impactar produção?
❓ Route 53 failover respondeu secondary mesmo com primary healthy. Por quê?
Quiz rápido
3 perguntas · Acerte tudo e ganhe o badge 🎯 Gabarito