Blog
Para quem já sabe o básico e quer ir fundo. Aqui o assunto é como os modelos funcionam em produção: memória, roteamento, ferramentas, agentes. O lado técnico que pouca gente explica direito.
Imagens como arrays numpy. Color spaces (BGR/RGB/HSV). Filters (blur, edge detection Sobel/Canny). Contours. Quando CV clássico ainda ganha.
Augmentation (albumentations), normalization, preprocessing para inference. Batch processing. GPU acceleration com CuPy. DALI para data loading.
Convolution mental model, pooling, batch norm. ResNet (skip connections), EfficientNet (compound scaling), ConvNeXt (2022+), ViTs como alternativa. Transfer learning.
Two-stage (Faster R-CNN) vs one-stage (YOLO). YOLOv8/v10 arquitetura. DETR/RT-DETR (transformer-based). mAP, NMS, anchors. Ultralytics ecossistema.
Semantic vs instance vs panoptic. U-Net (biomédica), Mask R-CNN, SAM (Segment Anything Model da Meta 2023). Click-based prompting em 2024-2026.
Tesseract legacy, PaddleOCR open-source moderno, TrOCR (HuggingFace), AWS Textract, Azure Document Intelligence. Layout analysis, tables, forms.
Projeto: detector YOLO fine-tuned em dataset próprio, export ONNX, inference em Triton com dynamic batching, API FastAPI, monitoring drift. Entregáveis: repo + docker + benchmark latência.