Hardware Moderno: CPU/GPU/ARM/RISC-V

Transistores → portas lógicas → CPU superscalar → cache coherency → GPU CUDA → DDR5/HBM → NVMe → ARM vs x86 vs RISC-V → TPU/NPU. O computador físico que rodam seu código em 2026.

8artigos

540XP total

⚛️ Transistores e portas lógicas: a base atômica de tudo

CPU moderna tem 10-100 BILHÕES de transistores em ~5nm. Cada transistor é um switch (Source/Gate/Drain). Combinando: NAND/NOR/XOR. Combinando portas: adders, multiplexers, flip-flops. Combinando: ALU. Pega CPU. Moore's Law morrendo, Dennard scaling morto.

⏱ 13 min·+60 XP

→

🧠 CPU moderna: superscalar, out-of-order, SIMD, AMX

Por que sua CPU executa 4-8 instruções por ciclo (não 1). Pipeline (fetch/decode/execute/writeback), superscalar (múltiplas pipelines), out-of-order execution (reordenar pra otimizar), branch prediction (75-95% acerto), speculative exec (lembra Meltdown/Spectre?). SIMD: AVX-512, AMX (Intel matrix).

⏱ 15 min·+70 XP

→

🔥 Cache coherency, NUMA, false sharing — a guerra escondida

L1 cache (32KB, 1ns), L2 (256KB, 3ns), L3 (32MB, 12ns), RAM (100ns). MESI protocol mantém coerência entre cores. NUMA: cada socket tem RAM local; acesso remoto custa 2x. False sharing: 2 threads escrevendo variáveis diferentes na mesma cache line = catástrofe. Padding evita.

⏱ 15 min·+70 XP

→

🎮 GPUs e CUDA: por que ML rodou na GPU

GPU = 10.000+ cores SIMD especializados. CPU faz 1 coisa rápido; GPU faz 10.000 coisas em paralelo (single instruction multiple data). Por que matrix multiplication (base de redes neurais) é EMBARRASSINGLY PARALLEL → GPU vence. NVIDIA CUDA cores, Tensor Cores, AMD ROCm, Apple Metal.

⏱ 15 min·+70 XP

→

💿 Memória: DDR5, HBM, GDDR — quando cada uma

DDR5 (mainstream PCs/servers, 4800-6400 MT/s, 30-50 GB/s). GDDR6/7 (GPUs gamers, 600+ GB/s). HBM3/3e (datacenters, NVIDIA H100/B100, 3 TB/s). Por que LLMs precisam de HBM. Memory wall: CPU evolui mais rápido que RAM.

⏱ 13 min·+60 XP

→

💾 SSD/NVMe internals: wear leveling, GC, ZNS

SSD não é "HD rápido". Células NAND flash desgastam (TLC: ~3.000 ciclos). Controller faz WEAR LEVELING (espalha writes), GARBAGE COLLECTION em background, write amplification. NVMe sobre PCIe = 7 GB/s leitura. ZNS (Zoned Namespaces) elimina GC pra DBs.

⏱ 14 min·+65 XP

→

⚔️ ARM vs x86 vs RISC-V: a guerra de arquiteturas 2026

x86 (Intel/AMD): CISC complexo, dominante em desktop/server, 50% mais consumo. ARM (Apple Silicon, AWS Graviton, mobile): RISC eficiente, 2x perf/watt, virou padrão laptop+server. RISC-V: open source, China, Tenstorrent, livre de royalties. Por que Apple M-series mudou o jogo.

⏱ 15 min·+70 XP

→

🧮 Hardware especializado: TPU, NPU, FPGA, DPU

CPU = general purpose, perde em workloads específicos. TPU (Google, ASICs pra ML, v5e/v6 Trillium), NPU (Apple Neural Engine, Qualcomm Hexagon), FPGA (Xilinx/Altera, programável em hardware), DPU (NVIDIA BlueField, "CPU pra network"). Especialização é a única saída pós-Moore.

⏱ 16 min·+75 XP

→

Discussão

Carregando…

← Voltar à home