Blog
Para quem já sabe o básico e quer ir fundo. Aqui o assunto é como os modelos funcionam em produção: memória, roteamento, ferramentas, agentes. O lado técnico que pouca gente explica direito.
Como rodar Llama 70B num MacBook. GGUF (llama.cpp), AWQ (Activation-aware Weight Quantization, MIT 2023), GPTQ (Frantar et al), bitsandbytes NF4. Trade-offs perplexity vs VRAM, K-quants, importance matrix.
O motor C++ que destravou local LLM. ggml tensor library, KV cache management, FlashAttention-2 implementation, batch decoding, prompt processing vs generation. Como contribuir para o repo (Georgi Gerganov).
Ollama como sucessor de llama.cpp para devs. Model registry, Modelfile (Dockerfile-like), Ollama API REST, multi-model loading, structured output (JSON mode), function calling. Deploy Docker + GPU passthrough.
PagedAttention (Kwon et al, SOSP 2023): KV cache como virtual memory paginada. vLLM continuous batching, OpenAI-compatible API, tensor parallelism, prefix caching. Throughput 10-24x sobre HuggingFace.
Speculative decoding (Leviathan et al, ICML 2023): draft model rápido propõe N tokens, target model verifica em paralelo. EAGLE-2, Medusa, lookahead decoding. Como ativar em vLLM, llama.cpp, MLX.
MLX da Apple ML Research (2023): array framework lazy, unified memory, treina e infere em Mac. mlx-lm para LLMs, mlx-vlm para VLMs, fine-tune LoRA local. M3 Ultra 192GB roda Llama 3.3 70B. Comparação com llama.cpp Metal backend.
LLMs rodando no celular em 2026. Apple Foundation Models (iOS 26+), Google AI Edge / MediaPipe LLM, ExecuTorch (PyTorch mobile), Phi-3 / Gemma 2B / Qwen 2.5 3B no device. Trade-offs battery vs quality.
RAG sem mandar nada pro cloud. Pipeline: docling para parsing, embeddings local (BGE-M3 com sentence-transformers), LanceDB ou Qdrant em Docker, Ollama para gen. Hybrid search local. Privacidade real para dados sensíveis.
EleutherAI lm-evaluation-harness, deepeval, promptfoo. Benchmarks: MMLU, GSM8K, HumanEval, IFEval, GPQA. Como rodar suite completa em uma noite no seu modelo quantizado, comparar antes/depois de fine-tune.
Comparativo de custo/throughput em maio/2026: Mac M3 Ultra 192GB (~US$7k), RTX 5090 32GB (~US$2k + PC), Mac Studio 4xM3 Ultra cluster, NVIDIA DGX Spark, AMD Ryzen AI Max+ 128GB. Tokens/sec por modelo, R$/1M tokens.