Blog
Para quem já sabe o básico e quer ir fundo. Aqui o assunto é como os modelos funcionam em produção: memória, roteamento, ferramentas, agentes. O lado técnico que pouca gente explica direito.
Regressão vs classificação vs clustering. Quando ML bate regra/heurística, quando não. Bias-variance trade-off. Por que em 2026 ainda dominamos mercado de tabular com XGBoost, não LLM.
Linear/logistic regression, regularização L1/L2. Support vectors. Naive Bayes. KNN. Scikit-learn pipelines. Quando usar cada.
Categorical encoding (one-hot, target, ordinal, leave-one-out), numerical transforms (log, box-cox), temporal features, interactions. Data leakage pitfalls.
Decision trees mental model. Random Forest (bagging). XGBoost/LightGBM/CatBoost (boosting). Hyperparam tuning, early stopping, feature importance. Por que ganha Kaggle em tabular.
K-fold, stratified, time-series split, leak prevention. Classification (precision/recall/F1/ROC/PR), regression (MAE/RMSE/MAPE/R²), imbalanced (balanced accuracy). Confidence intervals.
Stationarity, ACF/PACF, ARIMA/SARIMA, Prophet do Meta, DeepAR/NBEATS. Backtesting temporal. Forecasting em produção.
Collaborative filtering (user/item), matrix factorization (SVD, ALS), content-based. Two-tower neural. Cold-start, popularity bias, diversity.
Projeto: dataset real (Kaggle), EDA + feature eng + modelo + eval + deployment (FastAPI ou BentoML). Entregáveis: notebook + código testado + README + deploy.