Data Engineering Moderna

Para quem já sabe o básico e quer ir fundo. Aqui o assunto é como os modelos funcionam em produção: memória, roteamento, ferramentas, agentes. O lado técnico que pouca gente explica direito.

10artigos

595XP total

⏱️ Batch vs stream: mental model e trade-offs reais

Batch: rodadas periódicas, throughput alto, latency em minutos/horas (ETL noturno). Stream: eventos contínuos, latency ms-segundos (Kafka + Flink). Lambda e Kappa architectures. Quando batch é bom suficiente (a maioria dos casos), quando stream é mandatório (real-time fraud, personalization).

⏱ 12 min·+50 XP

→

🔧 dbt: transformação como código, testável

dbt (data build tool) é SQL + Git + tests. Models (SELECT que vira table/view), sources (raw), seeds (static data), tests (not_null, unique, relationships, custom), macros (DRY SQL), docs auto-geradas, lineage graph. Core (CLI open) vs Cloud (manager pago).

⏱ 14 min·+60 XP

→

🎼 Airflow vs Dagster vs Prefect: qual orquestrador

Airflow: dominante, maduro, verbose (DAGs em Python, ops pesada). Dagster: software-defined assets, DX moderna, melhor pra analytics engineering. Prefect: simples, dynamic flows, ótimo pra Python-first. Como escolher baseado em legacy + time size.

⏱ 13 min·+55 XP

→

🦆 DuckDB e Polars: a revolução in-process

DuckDB: SQLite pra analytics — embedded, colunar, 0-copy integra Pandas/Parquet. Polars: DataFrame em Rust 10-100x mais rápido que pandas. Matam cluster Spark pra dataset < 1TB. "Big data is dead" (Jordan Tigani, 2023) — maioria dos times não precisa cluster.

⏱ 12 min·+55 XP

→

🏛️ Data lake vs lakehouse vs warehouse

Warehouse (Snowflake/BigQuery/Redshift): estruturado, performance, caro. Lake (S3 + Parquet): flexível, barato, compute separado, menos performático sem optimization. Lakehouse (Databricks, Iceberg+spark): converge com ACID. Qual escolher por escala + pricing model.

⏱ 13 min·+55 XP

→

🔄 CDC com Debezium: change data capture sério

Change Data Capture: capturar INSERT/UPDATE/DELETE do DB e publicar como event stream. Debezium usa logical replication (Postgres) ou binlog (MySQL). Kafka Connect integra. Uso: replicar OLTP → OLAP sem batch ETL, outbox pattern, invalidação de cache.

⏱ 13 min·+55 XP

→

📨 Kafka fundamentos: partições, consumer groups, exactly-once

Kafka como commit log distribuído. Topic dividido em partitions (ordem garantida dentro de partition, não entre). Consumer groups dividem carga. Exactly-once via idempotent producer + transactional writes. Retention configurável (pode ser infinito). Event sourcing natural.

⏱ 15 min·+65 XP

→

🧊 Iceberg, Delta e Hudi: table formats abertos

Parquet é formato de arquivo; table formats adicionam ACID + time-travel + schema evolution em cima. Iceberg (Apple/Netflix, open): leader em 2026. Delta (Databricks): maduro, proprietário-ish. Hudi (Uber): focado em upserts. Open Table Format é o futuro — fim do vendor lock-in.

⏱ 14 min·+60 XP

→

✅ Qualidade de dados: Great Expectations, dbt tests, Soda

Data quality não é opcional. Testes em pipeline: volume (count esperado), shape (schema), distribution (stats), freshness (SLA), referential (FK-like em lake). Great Expectations, Soda Core, dbt tests nativos. Alerting, circuit breaker (bloqueia pipeline downstream se upstream falha).

⏱ 12 min·+50 XP

→

🏁 Capstone: pipeline analytics end-to-end

Projeto: ingestão (Kafka → S3/Iceberg), transformação (dbt + DuckDB), orchestration (Dagster), CDC de Postgres OLTP, data quality (GE tests), dashboard (Metabase/Superset). Mostra cada camada funcionando juntas; mede SLA de freshness.

⏱ 20 min·+90 XP

→

← Voltar à home