🧠FFVAcademy
💬

O que é um LLM?

9 min de leitura·+50 XP
Pré-requisitos (0/1)0%

Recomendamos completar os pré-requisitos antes de seguir, mas nada te impede de continuar.

GPT, Claude, Gemini, Llama — todos são LLMs. Mas o que eles fazem de verdade? A resposta é mais simples e mais surpreendente do que parece: um LLM faz uma única coisa — prevê o próximo token. Só que faz isso com tanta precisão, treinado em tanto texto, que o resultado emergente parece inteligência. Neste módulo, vamos além da superfície: como são treinados (e quanto custa), o que é context window, temperature, top-p, e por que um prompt de 100 palavras pode custar dinheiro real.

A tarefa fundamental: prever o próximo token

🗺️ Geração autorregressiva — um token por vez
📥Input"A capital do Brasil é"
🔢Passo 1P(próximo | input) → "Brasília" 78% · "São Paulo" 12% · escolhe "Brasília"
🔢Passo 2P(próximo | "...Brasília") → "," 45% · "." 35% · escolhe ","
🔢Passo NCada token gerado vira parte do input do próximo passo
📤Output"A capital do Brasil é Brasília, localizada no..." (geração contínua)

Do treino em trilhões de tokens de texto, o modelo aprendeu distribuições estatísticas sobre a linguagem humana. Ele não busca em banco de dados. Não acessa a internet. Não "entende" como um humano. O que faz é calcular probabilidades condicionais com uma precisão que emerge em comportamento que parece compreensão.

As 3 fases do treino

🗺️ Pipeline de treino de um LLM moderno
📚Pré-treino (Pre-training)meses · $10M–$100M+
Treinado em trilhões de tokens (web, livros, código, papers). Aprende linguagem, fatos, raciocínio, código. Objetivo: next-token prediction. Resultado: modelo base (capaz mas "selvagem", não segue instruções).
gera modelo base
🎯Fine-tuning supervisionado (SFT)dias · $10k–$1M
Treinado em milhares de pares (instrução → resposta ideal) escritos por humanos. Aprende a seguir instruções, ter formato de chat, ser útil. É aqui que "base model" vira "assistant".
gera assistant
🧑‍⚖️RLHF / DPO (alinhamento)dias · $50k–$500k
Humanos comparam pares de respostas e escolhem a melhor. Um reward model aprende as preferências. O LLM é otimizado (PPO ou DPO) pra maximizar esse reward: ser útil, honesto, seguro.
💡
Custo real: treinar GPT-4 custou estimados $100M+. Claude 3.5 Sonnet: dezenas de milhões. Llama 3 405B: ~$30M em compute. O pré-treino domina o custo — SFT e RLHF são "baratos" em comparação.

Context window: o limite mais importante

A context window é o número máximo de tokens que o modelo pode processar numa única chamada — incluindo prompt e resposta. Tudo que está fora da window não existe para o modelo.

ModeloContext windowEquivalente em textoNota
GPT-3.54k tokens~3.000 palavrasO ChatGPT original
GPT-4o128k tokens~100.000 palavras~1 livro inteiro
Claude 3.5 Sonnet200k tokens~150.000 palavras~2-3 livros
Gemini 1.5 Pro1M tokens~750.000 palavras~10 livros
Claude Opus 4200k tokens~150.000 palavrasExtended thinking usa parte da window
⚠️
Context != memória. O modelo não "lembra" conversas anteriores — cada chamada de API é independente. O que parece memória em chatbots é o app reenviando todo o histórico a cada mensagem (consumindo mais tokens/custo).

Temperature e top-p: controlando a aleatoriedade

Quando o modelo calcula a distribuição de probabilidade do próximo token, temperature e top-pcontrolam qual token é escolhido dessa distribuição:

ParâmetroValor baixoValor altoQuando usar
Temperature0 = greedy (sempre o mais provável) → determinístico1.0+ = mais aleatoriedade → diversidade/criatividadeFactuais/código: 0-0.2 · Criativo: 0.7-1.0
Top-p (nucleus)0.1 = só os tokens mais prováveis que somam 10%0.95 = quase toda a distribuição entraGeralmente 0.9-0.95 · combina com temperature
🗺️ Temperature 0 vs 0.7 na prática — prompt: "O sol é uma..."
TEMPERATURE = 0 (greedy)
"estrela" 100% das vezes
Sempre o token mais provável
Previsível · factual · determinístico
Ideal para: JSON, código, classificação
TEMPERATURE = 0.7
"estrela" 65% · "bola" 15%
"fonte" 10% · "esfera" 8%
Escolha aleatória ponderada
Ideal para: criatividade · brainstorming

Custos reais de API

Usar um LLM via API custa por token — separado em input (seu prompt) e output (resposta gerada). Output é mais caro porque é gerado sequencialmente (1 forward pass por token).

Modelo (abril 2026)Input (por 1M tokens)Output (por 1M tokens)Nota
GPT-4o$2.50$10.00Bom equilíbrio custo/qualidade
Claude 3.5 Sonnet$3.00$15.00Forte em código e raciocínio longo
Claude Opus 4$15.00$75.00Frontier — raciocínio profundo
GPT-4o mini$0.15$0.60Classificação, roteamento, tarefas simples
Llama 3.1 405B (self-hosted)~$1.50~$3.00Custo de GPU, sem markup de API

Conta rápida: um chatbot que processa 100 mensagens/dia com média de 2.000 tokens por chamada (input+output) usando Claude 3.5 Sonnet: ~200k tokens/dia → ~6M tokens/mês → ~$18 input + ~$90 output = ~$108/mês.

Scaling Laws: tamanho importa — mas quanto?

Uma das descobertas mais importantes da pesquisa de LLMs foi que o desempenho segue leis de escala (scaling laws) previsíveis: à medida que você aumenta parâmetros, dados de treino e compute, o desempenho melhora de forma logarítmica e previsível. O paper Chinchilla (DeepMind, 2022) mudou como os modelos são treinados.

LeiO que dizConsequência prática
Kaplan et al. (2020)Loss ∝ N^(-α) — dobrar params reduz loss em fator fixoGPT-3 foi treinado com 300B tokens em 175B params (sub-ótimo)
Chinchilla (2022)Para compute fixo, N e D devem crescer proporcionalmente: N ≈ DLLaMA 3 70B treinou em 15T tokens (4× mais dados que OpenAI)
EmergênciaCapacidades surgem abruptamente acima de thresholds de escalaChain-of-thought só emerge acima de ~100B params no pré-treino denso
Scaling de inferênciaMais compute no decode (sampling, refinamento) melhora qualidadeo1, DeepSeek-R1: "thinking" durante geração — nova fronteira
💡
A lição do Chinchilla: dados de qualidade importam tanto quanto params. Meta treinou LLaMA 3 70B em 15T tokens (muito mais que o "compute-optimal" para esse tamanho) para criar um modelo que fosse barato de servir com alta qualidade — o resultado é que LLaMA 3 70B supera modelos com mais params mas menos dados de treino.

Open-source vs Closed: a divisão que mudou a IA

Em 2023, a Meta abriu os pesos do LLaMA — e mudou a dinâmica da IA para sempre. Hoje existe uma divisão clara entre modelos abertos e fechados, com trade-offs reais:

AspectoModelos Fechados (GPT-4, Claude)Modelos Abertos (LLaMA 3, Mistral, Qwen)
AcessoApenas via API do provedorDownload e deploy local ou em qualquer nuvem
CustoPor token (variável com uso)Custo de GPU/infraestrutura (fixo)
PrivacidadeDados vão para servidores do provedorDados ficam nos seus servidores
CustomizaçãoFine-tuning limitado via APIFine-tuning total, quantização, modificação da arquitetura
Qualidade frontierGPT-4o, Claude Opus 4 ainda à frenteLLaMA 3 405B, Qwen 2.5 72B: competitivos em muitas tarefas
ComplianceDepende dos ToS do provedorControle total — essencial para saúde, financeiro, governo

📋 Preciso decidir entre API de LLM fechado ou hospedar modelo open-source

Depende do caso de uso

API fechada: custo zero de infra, zero manutenção, qualidade frontier. Open-source: controle total, custo fixo em alto volume, privacidade, possibilidade de fine-tuning profundo.

Alt: API (Claude/GPT)Para protótipos, uso esporádico, qualidade frontier necessária, equipe sem GPU expertise.

Alt: Open-source self-hostedPara alto volume (>1M tokens/dia), regulação de dados (HIPAA, LGPD), fine-tuning vertical.

Limitações reais (o que o LLM NÃO faz)

LimitaçãoO que aconteceComo mitigar
AlucinaçãoGera texto plausível mas factualmente errado com alta confiançaRAG (busca em base), citations, verificação humana
Cutoff de treinoNão sabe eventos após a data de treinoTool calling (busca web), RAG com dados frescos
Raciocínio multi-stepErra em cadeias longas de lógica ou matemáticaChain-of-thought, decomposição, code execution
Contexto perdidoDepois da window, informação desapareceSumarização, RAG, agentic loops com memória
Sem estado entre chamadasCada request é independente — não "lembra"Reenviar contexto, usar database externa

Alucinação: por que acontece e como mitigar

Alucinação é o nome técnico para quando o LLM gera texto factualmente errado com aparente confiança. Não é um bug — é uma consequência direta de como LLMs são treinados: maximizar probabilidade do próximo token, não verificar facticidade.

Tipo de alucinaçãoExemploCausa provávelMitigação
Factual incorreto"A Torre Eiffel tem 450m" (são 330m)Conflito ou ruído no corpus de treinoRAG com fonte autoritativa, citations
Citação inventadaAutor + título de paper que não existeInterpolação de padrões de citaçãoSempre verificar DOI/URL da citação
Código que compila mas não funcionaAPI com assinatura errada, método deprecadoFunção raramente usada no corpusTestes automatizados, type checking
Confabulação de timeline"X aconteceu em 2019" (foi em 2021)Datas raramente contextualizadas no corpusVerificação de fatos com dados estruturados
Auto-confiança injustificadaResponde com certeza em domínio desconhecidoCalibração de confiança não é objetivo do treinoPrompts que pedem "diga se não sabe"
🚨
A armadilha do especialista: LLMs alucinam mais em domínios especializados (medicina, direito, finanças, engenharia específica) do que em conhecimento geral — exatamente onde o erro mais prejudica. Nunca use respostas de LLM sem verificação em decisões de alto risco.

Quantização: rodando grandes modelos em hardware menor

Um modelo de 70B parâmetros em FP32 precisa de ~280GB de VRAM — impossível em hardware comum.Quantização reduz a precisão dos pesos (de float32 para int8, int4 ou int2), reduzindo VRAM drasticamente com pequena perda de qualidade.

PrecisãoBits por paramVRAM para 70BPerda de qualidadeTool
FP3232 bits~280 GBNenhuma (referência)PyTorch padrão
FP16 / BF1616 bits~140 GBMínimaHuggingFace auto
INT8 (Q8)8 bits~70 GB~1–2% em benchmarksbitsandbytes, llama.cpp
INT4 (Q4_K_M)4 bits~35 GB~3–5% em benchmarksGGUF/llama.cpp, GPTQ
INT2 (Q2_K)2 bits~17 GB>10% — perda notávelApenas para hardware limitado

Na prática, Q4_K_M é o sweet spot: LLaMA 3 70B quantizado em Q4 roda em 2× GPUs de 24GB (como 2× RTX 4090) com qualidade próxima ao FP16. Ferramentas comoollama e llama.cpp fazem isso automaticamente.

Modelos: quem é quem em 2026

📋 Preciso de qualidade máxima em raciocínio complexo, código ou análise longa

Claude Opus 4 ou GPT-4.5

Modelos frontier com extended thinking/chain-of-thought. Custo alto, mas qualidade imbatível em tarefas complexas.

Alt: Modelos menoresSonnet/GPT-4o cobrem 90% dos casos com custo 5-10× menor.

📋 Classificar textos, extrair dados, roteamento — alta velocidade, custo mínimo

GPT-4o mini, Claude Haiku ou Gemini Flash

Modelos leves otimizados pra throughput. 10-50× mais baratos que frontier. Perfeitos pra tarefas onde velocidade > qualidade frontier.

Alt: Modelos open-source (Llama, Mistral)sem custo de API se auto-hosted, mas precisa de GPU.

Embeddings: como o modelo representa conhecimento

Internamente, um LLM representa cada token como um vetor de alta dimensão (geralmente 4096 a 16384 floats). Esse vetor é o embedding — uma codificação numérica onde tokens semanticamente similares ficam próximos no espaço vetorial. À medida que o texto passa pelas camadas do Transformer, os embeddings acumulam contexto: o vetor de "banco" muda dependendo de estar em "banco de dados" vs "banco do parque".

CamadaO que o embedding capturaExemplo
Input embedding (camada 0)Identidade do token — puramente sintática"run" e "running" são vetores diferentes
Camadas iniciais (1–10)Sintaxe, POS tags, co-ocorrências locais"banco" começa a diferenciar por contexto próximo
Camadas médias (10–40)Entidades, relações semânticas, correferência"ele" aponta para o sujeito anterior da frase
Camadas finais (40–96)Raciocínio, intenção, resposta esperadaRepresentação otimizada para prever o próximo token

Os embeddings da última camada são o que o modelo usa para calcular a distribuição de probabilidade do próximo token. É por isso que LLMs conseguem "entender" contexto longo — as camadas de atenção integram informação de qualquer posição dentro da context window.

Inferência: o que acontece quando você faz uma chamada

📝TokenizaçãoBPE
Texto → sequência de token IDs. "Hello world" → [15496, 995].
IDs
Prefill (input processing)paralelo
Todos os tokens do prompt processados em paralelo. Gera o KV Cache.
KV cache pronto
🔄Decode (generation)sequencial
Gera 1 token por vez. Cada token requer 1 forward pass usando o KV Cache. Até encontrar token de parada ou atingir max_tokens.
tokens
📤DetokenizaçãoIDs → texto
Token IDs → texto legível. Pode ser streamed (envia token a token) ou batched.

Perguntas típicas (Q&A)

LLMs entendem o que dizem?

Depende da definição de 'entender'. Eles manipulam representações estatísticas de linguagem com precisão suficiente para produzir resultados que parecem compreensão. Se isso constitui entendimento é um debate filosófico. Na prática: trate como uma ferramenta muito capaz que pode estar errada com muita confiança.

Qual a diferença entre modelo base e modelo instruct?

O modelo base completa texto — dá 'O céu é' e ele continua 'azul durante o dia...'. O modelo instruct (após SFT + RLHF) segue instruções — dá 'Explique o céu' e ele responde em formato estruturado. A capacidade está no base; a usabilidade está no instruct.

Fine-tuning é a mesma coisa que RAG?

Não. Fine-tuning modifica os pesos do modelo (treina mais). RAG não muda o modelo — injeta informação no prompt em runtime. Fine-tuning ensina estilo/formato; RAG injeta fatos atualizados. Regra: se o conhecimento muda frequentemente → RAG. Se quer mudar comportamento permanente → fine-tuning.

Posso rodar um LLM no meu computador?

Sim, se tiver GPU suficiente. Llama 3.1 8B roda em GPUs de 8GB (quantizado). 70B precisa de ~40GB de VRAM. 405B precisa de cluster. Tools: llama.cpp, Ollama, vLLM. Qualidade menor que APIs frontier, mas custo zero por token e privacidade total.
Take-aways:(1) LLM = preditor de próximo token treinado em trilhões de tokens. (2) Três fases: pré-treino ($$$), SFT (instruções), RLHF (alinhamento). (3) Context window = prompt + resposta — o que não cabe, não existe. (4) Temperature controla aleatoriedade: 0 = factual, 0.7+ = criativo. (5) Output custa mais que input porque é sequencial. (6) LLMs alucinam — sempre verifique fatos críticos. Próximo módulo: tokens e tokenização — o "idioma" real do modelo.
🧩

Quiz rápido

4 perguntas · Acerte tudo e ganhe o badge 🎯 Gabarito

Continue lendo