Blog
Transistores → portas lógicas → CPU superscalar → cache coherency → GPU CUDA → DDR5/HBM → NVMe → ARM vs x86 vs RISC-V → TPU/NPU. O computador físico que rodam seu código em 2026.
CPU moderna tem 10-100 BILHÕES de transistores em ~5nm. Cada transistor é um switch (Source/Gate/Drain). Combinando: NAND/NOR/XOR. Combinando portas: adders, multiplexers, flip-flops. Combinando: ALU. Pega CPU. Moore's Law morrendo, Dennard scaling morto.
Por que sua CPU executa 4-8 instruções por ciclo (não 1). Pipeline (fetch/decode/execute/writeback), superscalar (múltiplas pipelines), out-of-order execution (reordenar pra otimizar), branch prediction (75-95% acerto), speculative exec (lembra Meltdown/Spectre?). SIMD: AVX-512, AMX (Intel matrix).
L1 cache (32KB, 1ns), L2 (256KB, 3ns), L3 (32MB, 12ns), RAM (100ns). MESI protocol mantém coerência entre cores. NUMA: cada socket tem RAM local; acesso remoto custa 2x. False sharing: 2 threads escrevendo variáveis diferentes na mesma cache line = catástrofe. Padding evita.
GPU = 10.000+ cores SIMD especializados. CPU faz 1 coisa rápido; GPU faz 10.000 coisas em paralelo (single instruction multiple data). Por que matrix multiplication (base de redes neurais) é EMBARRASSINGLY PARALLEL → GPU vence. NVIDIA CUDA cores, Tensor Cores, AMD ROCm, Apple Metal.
DDR5 (mainstream PCs/servers, 4800-6400 MT/s, 30-50 GB/s). GDDR6/7 (GPUs gamers, 600+ GB/s). HBM3/3e (datacenters, NVIDIA H100/B100, 3 TB/s). Por que LLMs precisam de HBM. Memory wall: CPU evolui mais rápido que RAM.
SSD não é "HD rápido". Células NAND flash desgastam (TLC: ~3.000 ciclos). Controller faz WEAR LEVELING (espalha writes), GARBAGE COLLECTION em background, write amplification. NVMe sobre PCIe = 7 GB/s leitura. ZNS (Zoned Namespaces) elimina GC pra DBs.
x86 (Intel/AMD): CISC complexo, dominante em desktop/server, 50% mais consumo. ARM (Apple Silicon, AWS Graviton, mobile): RISC eficiente, 2x perf/watt, virou padrão laptop+server. RISC-V: open source, China, Tenstorrent, livre de royalties. Por que Apple M-series mudou o jogo.
CPU = general purpose, perde em workloads específicos. TPU (Google, ASICs pra ML, v5e/v6 Trillium), NPU (Apple Neural Engine, Qualcomm Hexagon), FPGA (Xilinx/Altera, programável em hardware), DPU (NVIDIA BlueField, "CPU pra network"). Especialização é a única saída pós-Moore.
Carregando…