Multi-tenancy SaaS: pool vs silo vs hybrid

A decisão arquitetural que define seu SaaS

Antes do primeiro cliente, você precisa decidir como separa os dados dele dos outros. Essa escolha cascateia em tudo: custo de infra, complexidade operacional, ciclo de release, compliance, vendabilidade enterprise. Errar aqui não mata — só obriga você a gastar 6 meses reescrevendo depois.

O AWS Well-Architected Framework — SaaS Lens codificou três padrões: Pool, Silo e Bridge (que a gente chama de Hybrid). Cada um é uma decisão sobre o que compartilhar e o que isolar.

💡

Documentação canônica: . Vale ler mesmo se você não está na AWS — os princípios valem em qualquer cloud.

Os 3 modelos lado a lado

🗺️ Pool vs Silo vs Bridge — visão estrutural

Pool (Shared)

Bridge (Hybrid)

Silo (Dedicated)

Dimensão	Pool	Bridge	Silo
Custo /tenant	Muito baixo (1/N)	Médio	Alto (linear)
Time-to-onboard	Segundos (INSERT)	Segundos a minutos	Minutos a horas (provisiona DB)
Isolamento	Lógico (RLS, app)	Misto	Físico
Noisy neighbor	Alto	Médio	Zero
Compliance enterprise	Difícil (precisa provar RLS)	Médio	Trivial
Deploy	1 release atinge todos	1 release + per-tenant migrations	N releases ou auto
Backup/restore por tenant	Difícil (extract com tenant_id)	Médio	Trivial (pg_dump do DB)
DR cross-region	Replicação global	Misto	Replicação por tenant
Schema migration	Atômica	Atômica no pool + N nos silos	N execuções
Operacionalmente	Simples	Complexo	Trabalhoso em escala

DimensãoCusto /tenant

PoolMuito baixo (1/N)

BridgeMédio

SiloAlto (linear)

DimensãoTime-to-onboard

PoolSegundos (INSERT)

BridgeSegundos a minutos

SiloMinutos a horas (provisiona DB)

DimensãoIsolamento

PoolLógico (RLS, app)

BridgeMisto

SiloFísico

DimensãoNoisy neighbor

PoolAlto

BridgeMédio

SiloZero

DimensãoCompliance enterprise

PoolDifícil (precisa provar RLS)

BridgeMédio

SiloTrivial

DimensãoDeploy

Pool1 release atinge todos

Bridge1 release + per-tenant migrations

SiloN releases ou auto

DimensãoBackup/restore por tenant

PoolDifícil (extract com tenant_id)

BridgeMédio

SiloTrivial (pg_dump do DB)

DimensãoDR cross-region

PoolReplicação global

BridgeMisto

SiloReplicação por tenant

DimensãoSchema migration

PoolAtômica

BridgeAtômica no pool + N nos silos

SiloN execuções

DimensãoOperacionalmente

PoolSimples

BridgeComplexo

SiloTrabalhoso em escala

Pool: o modelo padrão para começar

O modelo Pool é o "Postgres com tenant_id em todas as tabelas". Toda query tem um filtro WHERE tenant_id = ?. Isolamento é feito por defesa em camadas: app (middleware injeta filtro) + DB (RLS força a regra).

🗺️ Anatomia Pool

Edge

WAF/CDN — Rate limit por IP

Auth Gateway — JWT → tenant_id + user_id

App

Middleware — Extrai tenant_id do JWT

SET LOCAL — app.tenant_id no início da transação

ORM — Queries SEMPRE filtram tenant_id

Banco

Postgres — Tabelas com tenant_id UUID

RLS Policy — Filtra automaticamente

Indexes — (tenant_id, ...) composto

-- 1. Toda tabela tem tenant_id (UUID, com FK pra tenants)
CREATE TABLE tenants (
  id UUID PRIMARY KEY DEFAULT gen_random_uuid(),
  name TEXT NOT NULL,
  plan TEXT NOT NULL DEFAULT 'pro',
  created_at TIMESTAMPTZ DEFAULT now()
);

CREATE TABLE orders (
  id UUID PRIMARY KEY DEFAULT gen_random_uuid(),
  tenant_id UUID NOT NULL REFERENCES tenants(id) ON DELETE CASCADE,
  total NUMERIC(12,2),
  created_at TIMESTAMPTZ DEFAULT now()
);

-- 2. Index composto começando por tenant_id (planner usa como filtro inicial)
CREATE INDEX orders_tenant_created_idx ON orders (tenant_id, created_at DESC);

-- 3. Habilita RLS na tabela
ALTER TABLE orders ENABLE ROW LEVEL SECURITY;
ALTER TABLE orders FORCE ROW LEVEL SECURITY; -- pega até o owner

-- 4. Policy: cada SELECT/INSERT/UPDATE/DELETE filtra pelo session setting
CREATE POLICY tenant_isolation ON orders
  USING (tenant_id = current_setting('app.tenant_id', true)::uuid)
  WITH CHECK (tenant_id = current_setting('app.tenant_id', true)::uuid);

// middleware/tenant.ts
import { db } from '@/lib/db';

export async function withTenant<T>(
  tenantId: string,
  fn: () => Promise<T>,
): Promise<T> {
  return db.transaction(async (tx) => {
    // SET LOCAL escopa o setting à transação — limpa no commit/rollback
    await tx.execute(`SET LOCAL app.tenant_id = '${tenantId}'`);
    return fn();
  });
}

// uso em route handler
export async function GET(req: Request) {
  const tenantId = await getTenantFromJWT(req);
  return withTenant(tenantId, async () => {
    const orders = await db.select().from(orders); // RLS filtra automaticamente
    return Response.json(orders);
  });
}

⚠️

Defesa em camadas, não única. Aplique tenant_id na ORM/query manualmente (não confie só no RLS). RLS é a rede de segurança contra o bug do dev que esqueceu. Se algum dia você desabilitar RLS para uma migration de massa, a app continua segura porque o WHERE explícito ainda está lá.

Connection pooling e tenant context

Em pool, um problema comum: você usa PgBouncer (transaction mode) e os settings SET LOCAL ficam confusos. Soluções:

PgBouncer session modeMais simples, mas conexões não são reusáveis entre tenants. Caro em escala.

PgBouncer transaction mode + SET LOCALSET LOCAL escopa por transação — funciona. Só não use prepared statements globais.

Search path por tenantSchema-per-tenant (pseudo-silo dentro do mesmo DB). SET LOCAL search_path = tenant_xyz. Funciona para até ~500 tenants antes do catálogo ficar pesado.

JWT no DB roleAvançado: cada tenant tem seu DB role. SET ROLE no início. RLS via current_user. Funciona, mas operacionalmente complexo.

Silo: quando enterprise exige (e paga por) isolamento real

Silo é "1 stack por tenant". Pode ser:

🗺️ Variações do modelo Silo

▼

📋 Cliente Fortune 500 exige 'banco de dados dedicado' como condição para fechar contrato de $300k/ano

✓ Silo leve (1 RDS dedicado, mesma app)

ARR $300k justifica $300-500/mês de DB dedicado. Mesma app code-base (deploy continua atômico). Cliente pode pedir audit do isolamento e você mostra: 'cluster RDS Aurora dedicado, KMS key específica, backup separado'. Compliance: troca de auditor satisfeito em horas.

Alt: Silo pesado (conta AWS dedicada) —

Alt: Overkill para 1 cliente, vira pesadelo operacional. Vale quando há 5+ clientes enterprise. —

Alt: Pool + RLS —

Alt: Cliente pode recusar audit. Você perde o contrato. Não vale brigar. —

Bridge / Hybrid: o que SaaS de verdade fazem

Quase nenhum SaaS bem-sucedido é 100% pool ou 100% silo. O modelo Bridge (Hybrid) é:

🗺️ Roteamento por tenant em Bridge

1. Request chegaJWT contém tenant_id

2. Lookup em tabela tenantstenants.tier = "free" | "pro" | "enterprise"; tenants.db_url = null (pool) ou string (silo)

3. Roteamentotier ∈ {free, pro} → conecta no DB pool com SET LOCAL app.tenant_id. tier = "enterprise" → conecta no DB silo dedicado.

4. Mesma app codeApenas a connection string muda. Migrations rodam em todos os DBs (pool + silos) via job/release.

5. Migração tenant pool → siloScript: pg_dump do filtro tenant_id no pool, restore num DB novo, update tenants.db_url, drop linhas no pool.

✅

Pragmatismo: Linear, Notion, Vercel — todos começaram pool e introduziram silo só para top 5-10% dos clientes que pagavam $50k+/ano e exigiam isolation. Bridge permite isso sem reescrever a app.

Citus: quando o Postgres pool não dá mais

Antes de Citus, escale vertical. Postgres em db.r6i.16xlarge (64 vCPU, 512GB RAM) aguenta absurdamente. Plain.com publicou em 2024 que rodam milhões de tenants em 1 cluster vanilla Postgres com tuning.

Quando o vertical não dá (tipicamente >1-5TB ou >10k QPS sustentado), Citus entra:

-- Habilita extensão Citus
CREATE EXTENSION citus;

-- Marca tabela como distribuída por tenant_id
SELECT create_distributed_table('orders', 'tenant_id');
SELECT create_distributed_table('events', 'tenant_id');

-- Tabelas de referência (pequenas, replicadas em todos os shards)
SELECT create_reference_table('countries');

-- Query típica: por tenant_id → vai pra 1 shard só (single-node performance)
SELECT * FROM orders WHERE tenant_id = '...' AND created_at > now() - interval '7 days';

-- Cross-tenant: scatter-gather paralelizado
SELECT count(*) FROM orders WHERE created_at > now() - interval '1 day';

Cenário	Citus bom?	Por quê
Muitos tenants pequenos	✅ Excelente	Distribuídos uniformemente, todas queries por tenant_id = single-shard
Poucos tenants enormes	⚠️ Cuidado	Hot shard — 1 worker sobrecarregado. Force a redistribuição manual ou migre para silo.
Analytics cross-tenant	✅ Bom	Citus parallelize scatter-gather; OLAP workloads se beneficiam.
Joins entre tenants	❌ Ruim	Joins não-colocados = movimento de dados entre shards = lento. Evite design.
Real-time / OLTP intenso	🟡 Médio	Funciona, mas adiciona latência de rede entre coordinator e workers.

CenárioMuitos tenants pequenos

Citus bom?✅ Excelente

Por quêDistribuídos uniformemente, todas queries por tenant_id = single-shard

CenárioPoucos tenants enormes

Citus bom?⚠️ Cuidado

Por quêHot shard — 1 worker sobrecarregado. Force a redistribuição manual ou migre para silo.

CenárioAnalytics cross-tenant

Citus bom?✅ Bom

Por quêCitus parallelize scatter-gather; OLAP workloads se beneficiam.

CenárioJoins entre tenants

Citus bom?❌ Ruim

Por quêJoins não-colocados = movimento de dados entre shards = lento. Evite design.

CenárioReal-time / OLTP intenso

Citus bom?🟡 Médio

Por quêFunciona, mas adiciona latência de rede entre coordinator e workers.

Schema migrations em multi-tenant

Migrations em SaaS pool são triviais — 1 ALTER TABLE atinge tudo. Em silo / bridge, vira orquestração:

PoolALTER TABLE atomic. Cuidado com locks em tabelas grandes (use pg_repack, CREATE INDEX CONCURRENTLY).

Silo / BridgeJob rota por todos os DBs aplicando migration. Tolerância a falha (1 falha = retry, não bloqueia os outros). Track versão por DB.

Backwards compatibilitySempre 2 deploys: (1) migration aditiva (ADD COLUMN nullable); (2) deploy app que usa; (3) backfill; (4) ALTER COLUMN NOT NULL. Nunca breaking direto.

ToolsAtlas, Drizzle kit, Flyway, Sqitch. Para silo, geralmente custom script Go/Python iterando DBs.

Noisy neighbor: o pesadelo do pool em escala

Cliente A faz SELECT * FROM events sem LIMIT, varre 50M linhas, IO do banco satura, todos os outros tenants veem p99 subindo. Esse é o noisy neighbor. Defesas:

🗺️ Mitigações em camadas

▼

Storage (S3/Blob) multi-tenant

Arquivos seguem mesma lógica: pool (1 bucket, prefixo por tenant) vs silo (1 bucket/conta por tenant). Em pool:

// Backend gera pre-signed URL com tenant_id validado
import { S3Client, PutObjectCommand } from '@aws-sdk/client-s3';
import { getSignedUrl } from '@aws-sdk/s3-request-presigner';

export async function getUploadUrl(tenantId: string, filename: string) {
  // tenant_id na key — backend SEMPRE controla
  const key = `${tenantId}/uploads/${crypto.randomUUID()}-${filename}`;
  const cmd = new PutObjectCommand({
    Bucket: 'meu-saas-prod',
    Key: key,
    ContentType: 'application/octet-stream',
  });
  const url = await getSignedUrl(s3Client, cmd, { expiresIn: 300 });
  return { url, key };
}

// Cliente uploada direto para S3 com PUT
// Servidor só sabe da key — armazena em DB ligada ao tenant_id
// Nunca aceita key que o cliente envia (poderia escrever em outro tenant)

⚠️

Erro clássico: aceitar uma do client. Sempre gere a key no backend, prefixada com o da sessão. Caso contrário, cliente A pode escrever em .

Observabilidade multi-tenant

Logs com tenant_idPropague tenant_id em logs estruturados (Datadog, Pino). Cada log tem { tenant_id, user_id, request_id }. Permite filtrar "todos os erros do tenant X".

Tracing W3C com baggageOpenTelemetry baggage transporta tenant_id ao longo de microservices. Visualiza "spans do tenant X" em qualquer serviço.

Métricas com labelPrometheus / OTLP metrics com label tenant_id — cuidado com cardinalidade (1000 tenants = 1000 timeseries por métrica). Para SaaS com 10k+ tenants, sample ou agregue.

Dashboards per-tenantCliente enterprise frequentemente pede dashboard "uptime do meu tenant". Geralmente Grafana com variable tenant_id na URL.

O caminho recomendado para solo SaaS

🗺️ Evolução típica de arquitetura multi-tenant

Dia 0 → 100 tenantsPool simples. 1 Postgres pequeno (db.t3.medium $60/mo). tenant_id em todas as tabelas. RLS opcional (foca em correctness via ORM). PgBouncer básico.

100 → 1k tenantsPool + RLS habilitado + rate limit por tenant. Postgres médio (db.r6g.large). Read replicas para analytics. Métricas per-tenant.

1k → 10k tenantsBridge: pool continua para maioria, primeiros silos para enterprise (1 RDS por cliente $200k+ ARR). Migrations orquestradas.

10k+ tenants + clientes reguladosHybrid pesado: pool + silos + conta AWS dedicada para fed/health/banks. Citus se vertical não dá mais. Time de SRE dedicado (não é mais solo).

✅

Para solo SaaS começando agora: Pool com tenant_id + RLS, hospedado em Neon ou Supabase. Vai aguentar até alguns milhares de tenants antes de você precisar pensar em silo. Resista à tentação de over-engineer.

Perguntas reais da trincheira

❓ Tenant_id como UUID ou string slug ('acme')?

UUID. Nunca exponha. Slugs visíveis (acme.seusaas.com) viram um campo separado tenants.slug com UNIQUE, mas o tenant_id real é UUID interno. Evita enumeration attack e permite renomear cliente.

❓ Como faço soft delete em multi-tenant?

Coluna deleted_at TIMESTAMPTZ + WHERE deleted_at IS NULL em todas as queries (ou RLS adicional). Para offboard de tenant completo: DELETE FROM tenants WHERE id = '...' com ON DELETE CASCADE — apaga tudo. Em silo: DROP DATABASE.

❓ Posso fazer backup de 1 tenant específico em pool?

Sim, mas é trabalhoso. não existe nativamente — pg_dump não filtra linhas. Você roda por tabela, ou usa uma view/snapshot lógica. Em silo: trivial, .

❓ Como gerencio limites por plano (storage, MAU) em multi-tenant?

Tabela tenants com colunas como max_users, max_storage_gb, etc. Middleware/job que valida a cada operação. Tabela tenant_usage atualizada via trigger ou job assíncrono (count(*) batido contra max no plano). Stripe Tax codes ou metered prices também podem refletir esses limites (módulo anterior).

❓ Tenant pediu 'data residency UE' — como atender em pool?

Pool global em UE não escala — você precisa de bridge. Ou: separar pool por região (pool-us-east, pool-eu-west) e tenant.region determina qual cluster usa. Quando UE pediu silo, cria o silo na region certa. Ver compliance: GDPR Art. 44+ exige adequate guarantees para transfer of data.

Referências canônicas

AWS Well-Architected SaaS Lensdocs.aws.amazon.com/wellarchitected/latest/saas-lens — bíblia oficial. Lê e relê.

AWS SaaS Factoryaws.amazon.com/partners/programs/saas-factory — patterns, reference architectures.

Postgres RLS docspostgresql.org/docs/current/ddl-rowsecurity.html

Citus docsdocs.citusdata.com — Microsoft mantém, open source.

Plain.com engineering blogPosts sobre scaling Postgres multi-tenant em produção. plain.com/blog.

Linear engineering bloglinear.app/blog — referência de pool moderno (sync engine + RLS).

💡

Próximo módulo: arquitetura pronta. Agora o cliente precisa entender seu produto em <5 minutos. Onboarding flows: time-to-value, empty states, product tours, activation rate.

A decisão arquitetural que define seu SaaS

💡

Documentação canônica: . Vale ler mesmo se você não está na AWS — os princípios valem em qualquer cloud.

Os 3 modelos lado a lado

🗺️ Pool vs Silo vs Bridge — visão estrutural

Pool (Shared)

Bridge (Hybrid)

Silo (Dedicated)

Dimensão	Pool	Bridge	Silo
Custo /tenant	Muito baixo (1/N)	Médio	Alto (linear)
Time-to-onboard	Segundos (INSERT)	Segundos a minutos	Minutos a horas (provisiona DB)
Isolamento	Lógico (RLS, app)	Misto	Físico
Noisy neighbor	Alto	Médio	Zero
Compliance enterprise	Difícil (precisa provar RLS)	Médio	Trivial
Deploy	1 release atinge todos	1 release + per-tenant migrations	N releases ou auto
Backup/restore por tenant	Difícil (extract com tenant_id)	Médio	Trivial (pg_dump do DB)
DR cross-region	Replicação global	Misto	Replicação por tenant
Schema migration	Atômica	Atômica no pool + N nos silos	N execuções
Operacionalmente	Simples	Complexo	Trabalhoso em escala

DimensãoCusto /tenant

PoolMuito baixo (1/N)

BridgeMédio

SiloAlto (linear)

DimensãoTime-to-onboard

PoolSegundos (INSERT)

BridgeSegundos a minutos

SiloMinutos a horas (provisiona DB)

DimensãoIsolamento

PoolLógico (RLS, app)

BridgeMisto

SiloFísico

DimensãoNoisy neighbor

PoolAlto

BridgeMédio

SiloZero

DimensãoCompliance enterprise

PoolDifícil (precisa provar RLS)

BridgeMédio

SiloTrivial

DimensãoDeploy

Pool1 release atinge todos

Bridge1 release + per-tenant migrations

SiloN releases ou auto

DimensãoBackup/restore por tenant

PoolDifícil (extract com tenant_id)

BridgeMédio

SiloTrivial (pg_dump do DB)

DimensãoDR cross-region

PoolReplicação global

BridgeMisto

SiloReplicação por tenant

DimensãoSchema migration

PoolAtômica

BridgeAtômica no pool + N nos silos

SiloN execuções

DimensãoOperacionalmente

PoolSimples

BridgeComplexo

SiloTrabalhoso em escala

Pool: o modelo padrão para começar

🗺️ Anatomia Pool

Edge

WAF/CDN — Rate limit por IP

Auth Gateway — JWT → tenant_id + user_id

App

Middleware — Extrai tenant_id do JWT

SET LOCAL — app.tenant_id no início da transação

ORM — Queries SEMPRE filtram tenant_id

Banco

Postgres — Tabelas com tenant_id UUID

RLS Policy — Filtra automaticamente

Indexes — (tenant_id, ...) composto

-- 1. Toda tabela tem tenant_id (UUID, com FK pra tenants)
CREATE TABLE tenants (
  id UUID PRIMARY KEY DEFAULT gen_random_uuid(),
  name TEXT NOT NULL,
  plan TEXT NOT NULL DEFAULT 'pro',
  created_at TIMESTAMPTZ DEFAULT now()
);

CREATE TABLE orders (
  id UUID PRIMARY KEY DEFAULT gen_random_uuid(),
  tenant_id UUID NOT NULL REFERENCES tenants(id) ON DELETE CASCADE,
  total NUMERIC(12,2),
  created_at TIMESTAMPTZ DEFAULT now()
);

-- 2. Index composto começando por tenant_id (planner usa como filtro inicial)
CREATE INDEX orders_tenant_created_idx ON orders (tenant_id, created_at DESC);

-- 3. Habilita RLS na tabela
ALTER TABLE orders ENABLE ROW LEVEL SECURITY;
ALTER TABLE orders FORCE ROW LEVEL SECURITY; -- pega até o owner

-- 4. Policy: cada SELECT/INSERT/UPDATE/DELETE filtra pelo session setting
CREATE POLICY tenant_isolation ON orders
  USING (tenant_id = current_setting('app.tenant_id', true)::uuid)
  WITH CHECK (tenant_id = current_setting('app.tenant_id', true)::uuid);

// middleware/tenant.ts
import { db } from '@/lib/db';

export async function withTenant<T>(
  tenantId: string,
  fn: () => Promise<T>,
): Promise<T> {
  return db.transaction(async (tx) => {
    // SET LOCAL escopa o setting à transação — limpa no commit/rollback
    await tx.execute(`SET LOCAL app.tenant_id = '${tenantId}'`);
    return fn();
  });
}

// uso em route handler
export async function GET(req: Request) {
  const tenantId = await getTenantFromJWT(req);
  return withTenant(tenantId, async () => {
    const orders = await db.select().from(orders); // RLS filtra automaticamente
    return Response.json(orders);
  });
}

⚠️

Connection pooling e tenant context

Em pool, um problema comum: você usa PgBouncer (transaction mode) e os settings SET LOCAL ficam confusos. Soluções:

PgBouncer session modeMais simples, mas conexões não são reusáveis entre tenants. Caro em escala.

PgBouncer transaction mode + SET LOCALSET LOCAL escopa por transação — funciona. Só não use prepared statements globais.

Search path por tenantSchema-per-tenant (pseudo-silo dentro do mesmo DB). SET LOCAL search_path = tenant_xyz. Funciona para até ~500 tenants antes do catálogo ficar pesado.

JWT no DB roleAvançado: cada tenant tem seu DB role. SET ROLE no início. RLS via current_user. Funciona, mas operacionalmente complexo.

Silo: quando enterprise exige (e paga por) isolamento real

Silo é "1 stack por tenant". Pode ser:

🗺️ Variações do modelo Silo

▼

📋 Cliente Fortune 500 exige 'banco de dados dedicado' como condição para fechar contrato de $300k/ano

✓ Silo leve (1 RDS dedicado, mesma app)

Alt: Silo pesado (conta AWS dedicada) —

Alt: Overkill para 1 cliente, vira pesadelo operacional. Vale quando há 5+ clientes enterprise. —

Alt: Pool + RLS —

Alt: Cliente pode recusar audit. Você perde o contrato. Não vale brigar. —

Bridge / Hybrid: o que SaaS de verdade fazem

Quase nenhum SaaS bem-sucedido é 100% pool ou 100% silo. O modelo Bridge (Hybrid) é:

🗺️ Roteamento por tenant em Bridge

1. Request chegaJWT contém tenant_id

2. Lookup em tabela tenantstenants.tier = "free" | "pro" | "enterprise"; tenants.db_url = null (pool) ou string (silo)

3. Roteamentotier ∈ {free, pro} → conecta no DB pool com SET LOCAL app.tenant_id. tier = "enterprise" → conecta no DB silo dedicado.

4. Mesma app codeApenas a connection string muda. Migrations rodam em todos os DBs (pool + silos) via job/release.

5. Migração tenant pool → siloScript: pg_dump do filtro tenant_id no pool, restore num DB novo, update tenants.db_url, drop linhas no pool.

✅

Pragmatismo: Linear, Notion, Vercel — todos começaram pool e introduziram silo só para top 5-10% dos clientes que pagavam $50k+/ano e exigiam isolation. Bridge permite isso sem reescrever a app.

Citus: quando o Postgres pool não dá mais

Quando o vertical não dá (tipicamente >1-5TB ou >10k QPS sustentado), Citus entra:

-- Habilita extensão Citus
CREATE EXTENSION citus;

-- Marca tabela como distribuída por tenant_id
SELECT create_distributed_table('orders', 'tenant_id');
SELECT create_distributed_table('events', 'tenant_id');

-- Tabelas de referência (pequenas, replicadas em todos os shards)
SELECT create_reference_table('countries');

-- Query típica: por tenant_id → vai pra 1 shard só (single-node performance)
SELECT * FROM orders WHERE tenant_id = '...' AND created_at > now() - interval '7 days';

-- Cross-tenant: scatter-gather paralelizado
SELECT count(*) FROM orders WHERE created_at > now() - interval '1 day';

Cenário	Citus bom?	Por quê
Muitos tenants pequenos	✅ Excelente	Distribuídos uniformemente, todas queries por tenant_id = single-shard
Poucos tenants enormes	⚠️ Cuidado	Hot shard — 1 worker sobrecarregado. Force a redistribuição manual ou migre para silo.
Analytics cross-tenant	✅ Bom	Citus parallelize scatter-gather; OLAP workloads se beneficiam.
Joins entre tenants	❌ Ruim	Joins não-colocados = movimento de dados entre shards = lento. Evite design.
Real-time / OLTP intenso	🟡 Médio	Funciona, mas adiciona latência de rede entre coordinator e workers.

CenárioMuitos tenants pequenos

Citus bom?✅ Excelente

Por quêDistribuídos uniformemente, todas queries por tenant_id = single-shard

CenárioPoucos tenants enormes

Citus bom?⚠️ Cuidado

Por quêHot shard — 1 worker sobrecarregado. Force a redistribuição manual ou migre para silo.

CenárioAnalytics cross-tenant

Citus bom?✅ Bom

Por quêCitus parallelize scatter-gather; OLAP workloads se beneficiam.

CenárioJoins entre tenants

Citus bom?❌ Ruim

Por quêJoins não-colocados = movimento de dados entre shards = lento. Evite design.

CenárioReal-time / OLTP intenso

Citus bom?🟡 Médio

Por quêFunciona, mas adiciona latência de rede entre coordinator e workers.

Schema migrations em multi-tenant

Migrations em SaaS pool são triviais — 1 ALTER TABLE atinge tudo. Em silo / bridge, vira orquestração:

PoolALTER TABLE atomic. Cuidado com locks em tabelas grandes (use pg_repack, CREATE INDEX CONCURRENTLY).

Silo / BridgeJob rota por todos os DBs aplicando migration. Tolerância a falha (1 falha = retry, não bloqueia os outros). Track versão por DB.

Backwards compatibilitySempre 2 deploys: (1) migration aditiva (ADD COLUMN nullable); (2) deploy app que usa; (3) backfill; (4) ALTER COLUMN NOT NULL. Nunca breaking direto.

ToolsAtlas, Drizzle kit, Flyway, Sqitch. Para silo, geralmente custom script Go/Python iterando DBs.

Noisy neighbor: o pesadelo do pool em escala

Cliente A faz SELECT * FROM events sem LIMIT, varre 50M linhas, IO do banco satura, todos os outros tenants veem p99 subindo. Esse é o noisy neighbor. Defesas:

🗺️ Mitigações em camadas

▼

Storage (S3/Blob) multi-tenant

Arquivos seguem mesma lógica: pool (1 bucket, prefixo por tenant) vs silo (1 bucket/conta por tenant). Em pool:

// Backend gera pre-signed URL com tenant_id validado
import { S3Client, PutObjectCommand } from '@aws-sdk/client-s3';
import { getSignedUrl } from '@aws-sdk/s3-request-presigner';

export async function getUploadUrl(tenantId: string, filename: string) {
  // tenant_id na key — backend SEMPRE controla
  const key = `${tenantId}/uploads/${crypto.randomUUID()}-${filename}`;
  const cmd = new PutObjectCommand({
    Bucket: 'meu-saas-prod',
    Key: key,
    ContentType: 'application/octet-stream',
  });
  const url = await getSignedUrl(s3Client, cmd, { expiresIn: 300 });
  return { url, key };
}

// Cliente uploada direto para S3 com PUT
// Servidor só sabe da key — armazena em DB ligada ao tenant_id
// Nunca aceita key que o cliente envia (poderia escrever em outro tenant)

⚠️

Erro clássico: aceitar uma do client. Sempre gere a key no backend, prefixada com o da sessão. Caso contrário, cliente A pode escrever em .

Observabilidade multi-tenant

Logs com tenant_idPropague tenant_id em logs estruturados (Datadog, Pino). Cada log tem { tenant_id, user_id, request_id }. Permite filtrar "todos os erros do tenant X".

Tracing W3C com baggageOpenTelemetry baggage transporta tenant_id ao longo de microservices. Visualiza "spans do tenant X" em qualquer serviço.

Métricas com labelPrometheus / OTLP metrics com label tenant_id — cuidado com cardinalidade (1000 tenants = 1000 timeseries por métrica). Para SaaS com 10k+ tenants, sample ou agregue.

Dashboards per-tenantCliente enterprise frequentemente pede dashboard "uptime do meu tenant". Geralmente Grafana com variable tenant_id na URL.

O caminho recomendado para solo SaaS

🗺️ Evolução típica de arquitetura multi-tenant

Dia 0 → 100 tenantsPool simples. 1 Postgres pequeno (db.t3.medium $60/mo). tenant_id em todas as tabelas. RLS opcional (foca em correctness via ORM). PgBouncer básico.

100 → 1k tenantsPool + RLS habilitado + rate limit por tenant. Postgres médio (db.r6g.large). Read replicas para analytics. Métricas per-tenant.

1k → 10k tenantsBridge: pool continua para maioria, primeiros silos para enterprise (1 RDS por cliente $200k+ ARR). Migrations orquestradas.

10k+ tenants + clientes reguladosHybrid pesado: pool + silos + conta AWS dedicada para fed/health/banks. Citus se vertical não dá mais. Time de SRE dedicado (não é mais solo).

✅

Perguntas reais da trincheira

❓ Tenant_id como UUID ou string slug ('acme')?

UUID. Nunca exponha. Slugs visíveis (acme.seusaas.com) viram um campo separado tenants.slug com UNIQUE, mas o tenant_id real é UUID interno. Evita enumeration attack e permite renomear cliente.

❓ Como faço soft delete em multi-tenant?

❓ Posso fazer backup de 1 tenant específico em pool?

Sim, mas é trabalhoso. não existe nativamente — pg_dump não filtra linhas. Você roda por tabela, ou usa uma view/snapshot lógica. Em silo: trivial, .

❓ Como gerencio limites por plano (storage, MAU) em multi-tenant?

❓ Tenant pediu 'data residency UE' — como atender em pool?

Referências canônicas

AWS Well-Architected SaaS Lensdocs.aws.amazon.com/wellarchitected/latest/saas-lens — bíblia oficial. Lê e relê.

AWS SaaS Factoryaws.amazon.com/partners/programs/saas-factory — patterns, reference architectures.

Postgres RLS docspostgresql.org/docs/current/ddl-rowsecurity.html

Citus docsdocs.citusdata.com — Microsoft mantém, open source.

Plain.com engineering blogPosts sobre scaling Postgres multi-tenant em produção. plain.com/blog.

Linear engineering bloglinear.app/blog — referência de pool moderno (sync engine + RLS).

💡

Próximo módulo: arquitetura pronta. Agora o cliente precisa entender seu produto em <5 minutos. Onboarding flows: time-to-value, empty states, product tours, activation rate.

A decisão arquitetural que define seu SaaS

Os 3 modelos lado a lado

Pool: o modelo padrão para começar

Connection pooling e tenant context

Silo: quando enterprise exige (e paga por) isolamento real

Bridge / Hybrid: o que SaaS de verdade fazem

Citus: quando o Postgres pool não dá mais

Schema migrations em multi-tenant

Noisy neighbor: o pesadelo do pool em escala

Storage (S3/Blob) multi-tenant

Observabilidade multi-tenant

O caminho recomendado para solo SaaS

Perguntas reais da trincheira

Referências canônicas

Próximos passos sugeridos

Discussão

Multi-tenancy SaaS: pool vs silo vs hybrid

A decisão arquitetural que define seu SaaS

Os 3 modelos lado a lado

Pool: o modelo padrão para começar

Connection pooling e tenant context

Silo: quando enterprise exige (e paga por) isolamento real

Bridge / Hybrid: o que SaaS de verdade fazem

Citus: quando o Postgres pool não dá mais

Schema migrations em multi-tenant

Noisy neighbor: o pesadelo do pool em escala

Storage (S3/Blob) multi-tenant

Observabilidade multi-tenant

O caminho recomendado para solo SaaS

Perguntas reais da trincheira

Referências canônicas

Próximos passos sugeridos

Discussão