🧠FFVAcademy
🧬

ML/IA para Arquiteto: SageMaker, Bedrock e Pipelines

12 min de leitura·+60 XP

O Practitioner cobre o catálogo de serviços AI/ML. No SAA-C03 a pergunta muda: como arquitetar uma pipeline de inferência que entrega latência previsível com custo sob controle? Quando Real-time Endpoint, quando Serverless Inference, quando Async, quando Batch? Como Bedrock se encaixa em um data lake? Como deployar modelos em produção com blue/green ou canary? Aqui vamos ao nível de decisão arquitetural — o que o exame realmente cobra.

📘 High-Performing· ~24% do SAA-C03

As 4 opções de deployment SageMaker

ModoLatênciaCustoCaso de uso
Real-time Endpointms (10-100)Pago por hora (instância provisionada 24/7)App interativa, alta QPS sustentada
Serverless InferenceVaria com cold startPago por invocação + memóriaTráfego intermitente/imprevisível
Async InferenceAté 1 horaPago por instância quando ativa; escala a zeroPayloads grandes (até 1 GB) · processamento longo
Batch TransformOfflinePago por jobInferência em lote sobre S3 (ex: scoring mensal)
💡
Serverless Inference é ideal para APIs internas com QPS baixo ou irregular — não paga instância parada. Mas tem cold start(~1-5s no primeiro request após idle), então não serve para latência de UI crítica.

Arquitetura de referência: inferência em produção

🗺️ Pipeline de inferência Real-time

  Client (App)
     │ HTTPS
     ▼
  ┌─────────────────┐
  │  API Gateway    │  (rate limit, API key, WAF)
  └────────┬────────┘
           │
           ▼
  ┌─────────────────┐
  │  Lambda         │  (pré-processa input, auth)
  └────────┬────────┘
           │ InvokeEndpoint
           ▼
  ┌─────────────────────────────────┐
  │  SageMaker Real-time Endpoint   │
  │  ├── Instance1 (ml.g5.xlarge)   │
  │  ├── Instance2 (ml.g5.xlarge)   │  ←  Auto Scaling
  │  └── Instance3 (ml.g5.xlarge)   │
  │                                 │
  │  Production Variants:           │
  │    ModelA (Blue)  90%           │
  │    ModelB (Green) 10% ← Canary  │
  └─────────────────────────────────┘
        

Production Variants permitem hospedar múltiplos modelos atrás do mesmo endpoint com tráfego dividido por percentual. É como o SageMaker implementa Blue/Green e Canary. Auto Scaling usa métrica SageMakerVariantInvocationsPerInstance.

Bedrock em arquiteturas corporativas

Bedrock é mais que um playground — ele tem primitivos para GenAI de produção:

FeaturePara quê
InvokeModel APIChamada síncrona para qualquer foundation model
InvokeModelWithResponseStreamStreaming de tokens (UX estilo ChatGPT)
Knowledge BasesRAG gerenciado: S3 → vector store (OpenSearch, Aurora, Pinecone) → recupera contexto automaticamente
AgentsTool calling gerenciado: conecta LLM a APIs externas com orquestração
GuardrailsFiltros de conteúdo (PII, tópicos proibidos, prompt injection detection)
Model EvaluationBenchmark automático de modelos contra dataset custom
Provisioned ThroughputCapacidade reservada para SLA (em vez de pay-per-token)
Fine-tuningAdapta modelo base ao domínio com dataset proprietário
Bedrock não usa seus inputs/outputs para treinar modelos de terceiros por padrão — garantia contratual AWS. Use VPC Endpoints para manter tráfego dentro da sua VPC.

Arquitetura: chatbot corporativo com RAG

🗺️ Bedrock + Knowledge Bases + OpenSearch

  Doc corporativos                   Usuário pergunta
  (SharePoint, S3, Confluence)           │
           │                              ▼
           ▼                       ┌──────────────┐
  ┌───────────────┐                │   App Web    │
  │  Data Sources │                └──────┬───────┘
  │  (Knowledge   │                       │
  │   Base)       │                       ▼
  └──────┬────────┘                ┌──────────────┐
         │ indexa                   │   Bedrock    │
         ▼                          │   Agent      │
  ┌───────────────┐    retrieves   │              │
  │   OpenSearch  │←─────────────── │   + Claude   │
  │  Serverless   │                 │   /Titan     │
  │  (vectors)    │                 └──────┬───────┘
  └───────────────┘                        │
                                            ▼
                                    Resposta contextual
        

Knowledge Bases abstrai todo o pipeline RAG: upload docs → chunking → embeddings → vector DB → retrieval → augmentação de prompt. Você chamaRetrieveAndGenerate e pronto.

MLOps com SageMaker Pipelines

SageMaker Pipelines é CI/CD para modelos — define DAG de steps (data prep → treino → avaliação → registro → aprovação → deploy). Integra com Model Registry (versionamento) e Model Monitor (drift detection).

ComponentePapel
Processing JobsPreparação de dados (pandas, Spark)
Training JobsTreino em instância gerenciada (GPU opcional)
Model RegistryVersiona modelos, aprovação manual/automática
Model MonitorDetecta drift de dados/modelo em endpoint de produção
ClarifyBias + explainability
Feature StoreArmazena features online (baixa latência) e offline (para treino)

Data lake alimentando ML

🗺️ Pipeline end-to-end: ingestão → ML → inferência

  Kinesis Streams                Glue ETL
       │                            │
       ▼                            ▼
  S3 (raw zone) ──── Athena ──→ S3 (curated)
       │                            │
       │ glue crawler               │
       ▼                            ▼
  Glue Data Catalog        SageMaker Processing Job
                                    │
                                    ▼
                           SageMaker Training Job
                                    │
                                    ▼
                           SageMaker Model Registry
                                    │
                                    ▼
                           SageMaker Endpoint (produção)
                                    │
                                    ▼
                           CloudWatch + Model Monitor
        

Cenários arquiteturais

📋 App de e-commerce precisa de recomendação personalizada com QPS variável (100 → 10.000)

Amazon Personalize OU SageMaker Real-time Endpoint com Auto Scaling

Personalize é serviço gerenciado (menor esforço) específico para recommendation. Se precisa modelo custom, Real-time Endpoint + Auto Scaling + Production Variants entrega latência previsível.

Alt: Serverless Inferencecold start prejudica UX no pico.

Alt: Batch Transformatraso de minutos não serve.

📋 Scoring de risco de crédito processado 1x/dia sobre tabela com 10M linhas

SageMaker Batch Transform

Job offline sobre S3 — paga só pelo processamento. Não faz sentido manter endpoint ativo 24/7 para uso pontual.

Alt: Async Inferencemais indicado para payload grande pontual.

Alt: Real-time Endpointdesperdício de custo.

📋 Chatbot interno consulta base de 500.000 documentos técnicos

Amazon Q Business OU Bedrock Knowledge Bases + OpenSearch Serverless

Q Business já integra conectores (SharePoint, Confluence, S3) + search + GenAI. Alternativamente, Knowledge Bases + OpenSearch dá mais controle para pipeline RAG custom.

Alt: Kendra + Lexmais legado, mais engenharia.

Alt: Self-hosted com OpenSearch + Llamaoverhead operacional alto.

📋 Processar PDFs de contratos (50 páginas cada) com GenAI — 1-2 min por doc, 1000 docs/dia

SageMaker Async Inference

Payload grande, latência longa, throughput moderado. Async coloca na fila SQS-like e devolve resultado em S3. Endpoint escala a zero quando ocioso.

Alt: Real-timetimeout em 60s — não serve.

Alt: Step Functions + Bedrockválido para ≤ 29s por invocação.

Segurança ML/IA no SAA

AmeaçaDefesa AWS
Vazamento de PII em promptsBedrock Guardrails · Comprehend PII Redaction
Prompt injectionGuardrails de input · validation na camada de app
Dados de treino expostosSageMaker em VPC + KMS · S3 privado + Lake Formation
Modelo enviesadoSageMaker Clarify · Model Monitor bias drift
Tráfego de inferência pela internetVPC Endpoint para Bedrock/SageMaker (PrivateLink)
AuditoriaCloudTrail + Bedrock Model Invocation Logging

Perguntas típicas (Q&A)

Quando SageMaker em vez de Bedrock?

SageMaker quando precisa treinar/ajustar modelo próprio ou ter controle fino (MLOps, Feature Store). Bedrock quando quer consumir foundation models prontos com API única e pagar por uso.

Real-time Endpoint cobra quando ocioso?

SIM. Instância fica provisionada 24/7 — paga por hora mesmo sem invocações. Se o tráfego é intermitente, Serverless Inference ou Async Inference é mais econômico.

Como garantir que Bedrock funcione dentro de VPC privada?

Criar um Interface Endpoint (PrivateLink) para Bedrock na VPC. Assim o tráfego de invocação não passa pela internet.

SageMaker JumpStart vs Bedrock — qual escolher?

JumpStart te dá modelo pré-treinado (ex: Llama) deployado em seu endpoint SageMaker — você paga instância e tem controle total. Bedrock é API gerenciada pay-per-token sem gerenciar infra. JumpStart quando quer customizar/fine-tuning profundo; Bedrock quando quer só consumir.
Take-aways: 4 tipos de endpoint = Real-time · Serverless · Async · Batch · Bedrock = foundation models gerenciados · Knowledge Bases = RAG gerenciado · Q Business = chatbot corporativo pronto · SageMaker Pipelines = MLOps · VPC Endpoint = tráfego privado · Guardrails + Clarify + Model Monitor = segurança e qualidade em produção.
🧩

Quiz rápido

3 perguntas · Acerte tudo e ganhe o badge 🎯 Gabarito