Local LLMs & Edge AI

Para quem já sabe o básico e quer ir fundo. Aqui o assunto é como os modelos funcionam em produção: memória, roteamento, ferramentas, agentes. O lado técnico que pouca gente explica direito.

10artigos

665XP total

📐 Quantização: GGUF, AWQ, GPTQ, INT8/INT4 explicados

Como rodar Llama 70B num MacBook. GGUF (llama.cpp), AWQ (Activation-aware Weight Quantization, MIT 2023), GPTQ (Frantar et al), bitsandbytes NF4. Trade-offs perplexity vs VRAM, K-quants, importance matrix.

⏱ 14 min·+70 XP

→

⚙️ llama.cpp internals: ggml, KV cache, FlashAttention

O motor C++ que destravou local LLM. ggml tensor library, KV cache management, FlashAttention-2 implementation, batch decoding, prompt processing vs generation. Como contribuir para o repo (Georgi Gerganov).

⏱ 15 min·+75 XP

→

🚢 Ollama em produção: model management, Docker, monitoring

Ollama como sucessor de llama.cpp para devs. Model registry, Modelfile (Dockerfile-like), Ollama API REST, multi-model loading, structured output (JSON mode), function calling. Deploy Docker + GPU passthrough.

⏱ 12 min·+60 XP

→

🚄 vLLM e PagedAttention: serving high-throughput

PagedAttention (Kwon et al, SOSP 2023): KV cache como virtual memory paginada. vLLM continuous batching, OpenAI-compatible API, tensor parallelism, prefix caching. Throughput 10-24x sobre HuggingFace.

⏱ 15 min·+75 XP

→

🎯 Speculative decoding: 2-3x speedup grátis

Speculative decoding (Leviathan et al, ICML 2023): draft model rápido propõe N tokens, target model verifica em paralelo. EAGLE-2, Medusa, lookahead decoding. Como ativar em vLLM, llama.cpp, MLX.

⏱ 14 min·+70 XP

→

🍎 MLX: rodar LLM nativo em M3/M4 Apple Silicon

MLX da Apple ML Research (2023): array framework lazy, unified memory, treina e infere em Mac. mlx-lm para LLMs, mlx-vlm para VLMs, fine-tune LoRA local. M3 Ultra 192GB roda Llama 3.3 70B. Comparação com llama.cpp Metal backend.

⏱ 13 min·+65 XP

→

📱 On-device inference mobile: ExecuTorch, MediaPipe, Core ML

LLMs rodando no celular em 2026. Apple Foundation Models (iOS 26+), Google AI Edge / MediaPipe LLM, ExecuTorch (PyTorch mobile), Phi-3 / Gemma 2B / Qwen 2.5 3B no device. Trade-offs battery vs quality.

⏱ 13 min·+65 XP

→

🔒 RAG 100% local e privado: LanceDB, Ollama, Qdrant local

RAG sem mandar nada pro cloud. Pipeline: docling para parsing, embeddings local (BGE-M3 com sentence-transformers), LanceDB ou Qdrant em Docker, Ollama para gen. Hybrid search local. Privacidade real para dados sensíveis.

⏱ 14 min·+70 XP

→

🧪 Avaliação offline: lm-eval-harness, deepeval local

EleutherAI lm-evaluation-harness, deepeval, promptfoo. Benchmarks: MMLU, GSM8K, HumanEval, IFEval, GPQA. Como rodar suite completa em uma noite no seu modelo quantizado, comparar antes/depois de fine-tune.

⏱ 12 min·+60 XP

→

🔌 Hardware LLM 2026: Mac M3 Ultra vs RTX 5090 vs DGX

Comparativo de custo/throughput em maio/2026: Mac M3 Ultra 192GB (~US$7k), RTX 5090 32GB (~US$2k + PC), Mac Studio 4xM3 Ultra cluster, NVIDIA DGX Spark, AMD Ryzen AI Max+ 128GB. Tokens/sec por modelo, R$/1M tokens.

⏱ 11 min·+55 XP

→

← Voltar à home