Blog
Para quem já sabe o básico e quer ir fundo. Aqui o assunto é como os modelos funcionam em produção: memória, roteamento, ferramentas, agentes. O lado técnico que pouca gente explica direito.
ML flywheel: data → train → eval → deploy → monitor → retrain. Google MLOps maturity levels 0/1/2. Diferença de LLMOps. Ferramentas 2026.
Por que feature store: training/serving skew, reutilização, governança. Feast arquitetura (offline store + online store), Tecton, Hopsworks. Integração com data warehouse.
MLflow tracking (experiments, runs, params, metrics, artifacts). MLflow registry (stages: dev/staging/prod). Weights & Biases, Neptune. Model cards.
Airflow DAGs para ML, Kubeflow Pipelines (K8s-native), Prefect 2.0, Argo Workflows. Orquestração, retries, caching, artifact passing.
Triton Inference Server (NVIDIA), TorchServe, Seldon, BentoML, Ray Serve. Dynamic batching, ensemble, A/B. GPU vs CPU inference.
DVC git-like para data/models, lakeFS branches em lake, Pachyderm. Reprodutibilidade de training. Cost of reproducibility.
GitHub Actions com DVC e MLflow. Shadow deploy, canary, progressive rollout. Evidently AI, WhyLabs para drift detection. Retraining automation.
Entregáveis: repo com training pipeline (Kubeflow/Airflow) + feature store (Feast) + registry (MLflow) + serving (Triton ou BentoML) + monitoring (Evidently) + CI/CD completo. IaC (Terraform).