Machine Learning não é mágica — é matemática iterativa. O modelo começa chutando (pesos aleatórios), mede o quanto errou (loss function), calcula como ajustar cada peso (backpropagation), ajusta (gradiente descendente) e repete. Bilhões de vezes. Neste artigo, você vai entender cada peça desse ciclo e por que ele funciona.

Os três paradigmas de aprendizado

Antes de entrar em como o modelo treina, é preciso entender que tipo de problema ele resolve. Existem três paradigmas fundamentais:

Paradigma	Dados de treino	O que aprende	Exemplos reais
Supervisionado	Pares (input, label correto)	Mapear input → output correto	Classificação de imagem, previsão de preço, diagnóstico médico, tradução
Não-supervisionado	Dados sem labels	Estrutura, clusters, representações	Clustering de clientes, redução de dimensão, detecção de anomalias, autoencoders
Reinforcement Learning	Ambiente + recompensas	Política: sequência de ações que maximiza recompensa	AlphaGo, robótica, RLHF em LLMs, jogos Atari

ParadigmaSupervisionado

Dados de treinoPares (input, label correto)

O que aprendeMapear input → output correto

Exemplos reaisClassificação de imagem, previsão de preço, diagnóstico médico, tradução

ParadigmaNão-supervisionado

Dados de treinoDados sem labels

O que aprendeEstrutura, clusters, representações

Exemplos reaisClustering de clientes, redução de dimensão, detecção de anomalias, autoencoders

ParadigmaReinforcement Learning

Dados de treinoAmbiente + recompensas

O que aprendePolítica: sequência de ações que maximiza recompensa

Exemplos reaisAlphaGo, robótica, RLHF em LLMs, jogos Atari

💡

LLMs como GPT e Claude usam os três: pré-treino é não-supervisionado (prever próximo token), fine-tuning é supervisionado (pares pergunta/resposta), e RLHF é reinforcement learning (recompensa por respostas úteis e seguras).

Loss function: medindo o erro

Para aprender, o modelo precisa de uma métrica numérica de quão errado está. Essa métrica é a loss function (função de perda). Objetivo: minimizá-la.

🗺️ Loss functions comuns

Prever valores contínuos

MSE = (1/n) Σ (yᵢ - ŷᵢ)²

Previsão: 0.3 · Real: 1.0

MSE = (1.0 - 0.3)² = 0.49

Prever categorias discretas

Cross-Entropy = -Σ yᵢ·log(ŷᵢ)

Pred [0.1, 0.7, 0.2] → loss 0.36

Pred [0.01, 0.98, 0.01] → loss 0.02

Prever próximo token

Cross-Entropy sobre ~100k tokens

Para cada posição: -log P(token correto)

GPT-3 final: loss ≈ 1.7 (perplexidade ≈ 5.5)

A loss é um número único que resume o desempenho do modelo em um batch. Todo o treinamento se resume a: ajustar pesos para diminuir esse número.

Gradiente descendente: encontrando o mínimo

Imagine a loss function como uma paisagem montanhosa. Cada peso do modelo é uma dimensão. O modelo está em algum ponto dessa paisagem e quer chegar ao vale (mínimo da loss). Ele não enxerga a paisagem toda — só sente a inclinação onde está.

🗺️ Gradiente descendente — um passo de treino

Pesos aleatóriosPonto inicial na paisagem de loss (alta, longe do mínimo)

Calcular gradiente ∂Loss/∂wDireção de maior subida da loss (via backprop)

Dar passo na direção opostaw_novo = w_atual − lr × gradiente

Repetir por N iteraçõesCada passo reduz a loss — convergência rumo ao mínimo

Mínimo (ou mínimo local)Gradiente ≈ 0: atualização quase nula, treino parou de progredir

O gradiente (∂Loss/∂w) é a derivada parcial da loss em relação a cada peso. Ele aponta na direção de aumento da loss. Movemos na direção oposta (por isso o sinal negativo).

Learning rate: o hiperparâmetro mais importante

A learning rate (lr) controla o tamanho do passo. É o hiperparâmetro mais impactante do treinamento:

Learning Rate	Comportamento	Resultado
Muito grande (ex: 0.1)	Pesos oscilam violentamente, loss sobe e desce	Divergência — modelo não aprende
Grande (ex: 0.01)	Converge rápido no início, mas instável perto do mínimo	Pode funcionar com lr decay
Ideal (ex: 3e-4)	Converge de forma suave e estável	O sweet spot — achar esse valor é arte + ciência
Muito pequena (ex: 1e-6)	Convergência extremamente lenta	Desperdiça compute; pode ficar preso em mínimo local

Learning RateMuito grande (ex: 0.1)

ComportamentoPesos oscilam violentamente, loss sobe e desce

ResultadoDivergência — modelo não aprende

Learning RateGrande (ex: 0.01)

ComportamentoConverge rápido no início, mas instável perto do mínimo

ResultadoPode funcionar com lr decay

Learning RateIdeal (ex: 3e-4)

ComportamentoConverge de forma suave e estável

ResultadoO sweet spot — achar esse valor é arte + ciência

Learning RateMuito pequena (ex: 1e-6)

ComportamentoConvergência extremamente lenta

ResultadoDesperdiça compute; pode ficar preso em mínimo local

⚠️

Na prática, a learning rate não é fixa. Usamos schedulers: warmup (começa pequena, sobe), cosine decay (desce suavemente), step decay (corta a cada N épocas). LLMs modernos usam warmup + cosine decay quase universalmente.

Backpropagation: como calcular bilhões de gradientes

Um modelo com 7 bilhões de parâmetros precisa de 7 bilhões de gradientes a cada passo. Calcular cada um individualmente seria inviável. Backpropagation resolve isso usando a regra da cadeia do cálculo.

🗺️ Forward Pass + Backward Pass

Forward Pass

▼

Backward Pass (backprop)

▼

Atualização de pesos

🗺️ Regra da cadeia — rede de 3 camadas

x → [W₁] → h₁

h₁ → [W₂] → h₂

h₂ → [W₃] → ŷ

ŷ → Loss calculada

∂Loss/∂W₃ = ∂Loss/∂ŷ × ∂ŷ/∂W₃

∂Loss/∂W₂ = … × ∂h₂/∂W₂

∂Loss/∂W₁ = … × ∂h₁/∂W₁

Reutiliza gradientes já computados

Cada gradiente calculado 1× apenas

Armazenado e reutilizado pelas camadas anteriores

7B params = 7B gradientes em O(7B) ops

Sem backprop: O(49B²) — inviável

Épocas, batches e iterações

O treinamento não processa todos os dados de uma vez. Três conceitos definem a granularidade:

Conceito	Definição	Exemplo (100k amostras, batch 256)
Iteração	1 forward + backward + update em 1 mini-batch	1 iteração = 256 amostras processadas
Época	1 passagem completa pelo dataset inteiro	100k / 256 ≈ 390 iterações = 1 época
Mini-batch	Subconjunto dos dados processado de uma vez	Tamanhos comuns: 32, 64, 128, 256, 512

ConceitoIteração

Definição1 forward + backward + update em 1 mini-batch

Exemplo (100k amostras, batch 256)1 iteração = 256 amostras processadas

ConceitoÉpoca

Definição1 passagem completa pelo dataset inteiro

Exemplo (100k amostras, batch 256)100k / 256 ≈ 390 iterações = 1 época

ConceitoMini-batch

DefiniçãoSubconjunto dos dados processado de uma vez

Exemplo (100k amostras, batch 256)Tamanhos comuns: 32, 64, 128, 256, 512

🗺️ Batch GD vs Mini-Batch GD vs SGD

Processa 100k exemplos de uma vez

→ 1 atualização por época

✓ Gradiente matematicamente preciso

✗ Não cabe na VRAM da GPU

✗ Convergência lenta (poucas updates)

batch_size = 32-512 exemplos

→ ~390 atualizações por época

✓ Cabe na VRAM da GPU

✓ Ruído ajuda a escapar mínimos rasos

✓ Melhor trade-off velocidade/precisão

batch_size = 1 exemplo

→ 100k atualizações por época

✓ Atualiza com frequência máxima

✗ Gradiente extremamente ruidoso

✗ Não usa paralelismo da GPU

Otimizadores: além do SGD

SGD (Stochastic Gradient Descent) é o algoritmo base, mas tem limitações: a mesma learning rate para todos os parâmetros, sem memória de gradientes anteriores. Otimizadores modernos resolvem isso:

Otimizador	Ideia central	Usado em
SGD	w = w - lr × g. Simples, sem estado.	Baseline, CNNs com fine-tuning
SGD + Momentum	Mantém velocidade (média móvel do gradiente). Suaviza oscilações.	CNNs, ResNets
RMSProp	Divide lr pela média móvel de g². Normaliza a escala por parâmetro.	RNNs (historicamente)
Adam	Combina Momentum + RMSProp. lr adaptativa por parâmetro.	Default na maioria dos cenários
AdamW	Adam + weight decay desacoplado. Regularização mais correta.	LLMs (GPT, LLaMA, Claude)

OtimizadorSGD

Ideia centralw = w - lr × g. Simples, sem estado.

Usado emBaseline, CNNs com fine-tuning

OtimizadorSGD + Momentum

Ideia centralMantém velocidade (média móvel do gradiente). Suaviza oscilações.

Usado emCNNs, ResNets

OtimizadorRMSProp

Ideia centralDivide lr pela média móvel de g². Normaliza a escala por parâmetro.

Usado emRNNs (historicamente)

OtimizadorAdam

Ideia centralCombina Momentum + RMSProp. lr adaptativa por parâmetro.

Usado emDefault na maioria dos cenários

OtimizadorAdamW

Ideia centralAdam + weight decay desacoplado. Regularização mais correta.

Usado emLLMs (GPT, LLaMA, Claude)

# Adam em pseudocódigo:
# m = média móvel do gradiente (momento)
# v = média móvel do gradiente² (variância)
# beta1=0.9, beta2=0.999, eps=1e-8

m = beta1 * m + (1 - beta1) * g          # atualiza momento
v = beta2 * v + (1 - beta2) * g**2       # atualiza variância
m_hat = m / (1 - beta1**t)          # correção de bias
v_hat = v / (1 - beta2**t)          # correção de bias
w = w - lr * m_hat / (sqrt(v_hat) + eps)  # atualiza peso

# Intuição: parâmetros com gradientes grandes e consistentes
# recebem steps menores. Parâmetros com gradientes pequenos
# recebem steps proporcionalmente maiores.

📋 Qual otimizador usar?

✓ AdamW

Default seguro para 90% dos casos. lr=3e-4 com warmup + cosine decay é o ponto de partida mais testado. Todos os LLMs modernos usam AdamW.

Alt: SGD + Momentum —

O ciclo completo: treinamento end-to-end

🗺️ Loop de treinamento

Dataset

▼

Forward Pass

▼

Backward Pass

▼

Atualização

▼

Validação

Quando parar? Underfitting vs Overfitting

Problema	Sintoma	Solução
Underfitting	Train loss alta, val loss alta	Modelo maior, mais épocas, lr maior, features melhores
Overfitting	Train loss baixa, val loss sobe	Mais dados, dropout, weight decay, early stopping, data augmentation
Bom fit	Ambas baixas, gap pequeno	Manter — esse é o objetivo

ProblemaUnderfitting

SintomaTrain loss alta, val loss alta

SoluçãoModelo maior, mais épocas, lr maior, features melhores

ProblemaOverfitting

SintomaTrain loss baixa, val loss sobe

SoluçãoMais dados, dropout, weight decay, early stopping, data augmentation

ProblemaBom fit

SintomaAmbas baixas, gap pequeno

SoluçãoManter — esse é o objetivo

Perguntas e respostas

❓ Pré-treino de LLMs usa qual paradigma?

Não-supervisionado (self-supervised, mais precisamente). O modelo recebe texto e tenta prever o próximo token. O “label” é o próprio texto deslocado uma posição. Não precisa de anotação humana — o dataset é a internet inteira. Depois vem fine-tuning (supervisionado) e RLHF (reinforcement learning).

❓ O que é gradient clipping e por que LLMs precisam?

Gradient clipping limita a magnitude do gradiente antes da atualização. Se a norma de g excede um threshold, escala g proporcionalmente. Em modelos profundos (96+ camadas), gradientes podem explodir durante backprop (exploding gradients). Clipping estabiliza o treinamento. Valor típico: max_norm=1.0.

❓ Por que não usar learning rate alta com scheduler e pronto?

Porque com lr muito alta, os primeiros passos são destrutivos — os pesos divergem antes do scheduler ter chance de reduzir. Por isso usamos warmup: lr começa próxima de zero e sobe linearmente por ~1-5% dos steps, então o cosine decay começa a partir do pico. Isso dá tempo para o modelo “se orientar” antes de acelerar.

✅

O que você aprendeu: os três paradigmas de ML (supervisionado, não-supervisionado, RL), como loss functions medem o erro, como gradiente descendente minimiza a loss, o papel crítico da learning rate e dos schedulers, como backpropagation calcula bilhões de gradientes eficientemente, a diferença entre batch/mini-batch/SGD, e otimizadores modernos (Adam, AdamW). Próximo passo: entender a estrutura que torna tudo isso possível — as redes neurais.

Os três paradigmas de aprendizado

Antes de entrar em como o modelo treina, é preciso entender que tipo de problema ele resolve. Existem três paradigmas fundamentais:

Paradigma	Dados de treino	O que aprende	Exemplos reais
Supervisionado	Pares (input, label correto)	Mapear input → output correto	Classificação de imagem, previsão de preço, diagnóstico médico, tradução
Não-supervisionado	Dados sem labels	Estrutura, clusters, representações	Clustering de clientes, redução de dimensão, detecção de anomalias, autoencoders
Reinforcement Learning	Ambiente + recompensas	Política: sequência de ações que maximiza recompensa	AlphaGo, robótica, RLHF em LLMs, jogos Atari

ParadigmaSupervisionado

Dados de treinoPares (input, label correto)

O que aprendeMapear input → output correto

Exemplos reaisClassificação de imagem, previsão de preço, diagnóstico médico, tradução

ParadigmaNão-supervisionado

Dados de treinoDados sem labels

O que aprendeEstrutura, clusters, representações

Exemplos reaisClustering de clientes, redução de dimensão, detecção de anomalias, autoencoders

ParadigmaReinforcement Learning

Dados de treinoAmbiente + recompensas

O que aprendePolítica: sequência de ações que maximiza recompensa

Exemplos reaisAlphaGo, robótica, RLHF em LLMs, jogos Atari

💡

Loss function: medindo o erro

Para aprender, o modelo precisa de uma métrica numérica de quão errado está. Essa métrica é a loss function (função de perda). Objetivo: minimizá-la.

🗺️ Loss functions comuns

Prever valores contínuos

MSE = (1/n) Σ (yᵢ - ŷᵢ)²

Previsão: 0.3 · Real: 1.0

MSE = (1.0 - 0.3)² = 0.49

Prever categorias discretas

Cross-Entropy = -Σ yᵢ·log(ŷᵢ)

Pred [0.1, 0.7, 0.2] → loss 0.36

Pred [0.01, 0.98, 0.01] → loss 0.02

Prever próximo token

Cross-Entropy sobre ~100k tokens

Para cada posição: -log P(token correto)

GPT-3 final: loss ≈ 1.7 (perplexidade ≈ 5.5)

A loss é um número único que resume o desempenho do modelo em um batch. Todo o treinamento se resume a: ajustar pesos para diminuir esse número.

Gradiente descendente: encontrando o mínimo

🗺️ Gradiente descendente — um passo de treino

Pesos aleatóriosPonto inicial na paisagem de loss (alta, longe do mínimo)

Calcular gradiente ∂Loss/∂wDireção de maior subida da loss (via backprop)

Dar passo na direção opostaw_novo = w_atual − lr × gradiente

Repetir por N iteraçõesCada passo reduz a loss — convergência rumo ao mínimo

Mínimo (ou mínimo local)Gradiente ≈ 0: atualização quase nula, treino parou de progredir

O gradiente (∂Loss/∂w) é a derivada parcial da loss em relação a cada peso. Ele aponta na direção de aumento da loss. Movemos na direção oposta (por isso o sinal negativo).

Learning rate: o hiperparâmetro mais importante

A learning rate (lr) controla o tamanho do passo. É o hiperparâmetro mais impactante do treinamento:

Learning Rate	Comportamento	Resultado
Muito grande (ex: 0.1)	Pesos oscilam violentamente, loss sobe e desce	Divergência — modelo não aprende
Grande (ex: 0.01)	Converge rápido no início, mas instável perto do mínimo	Pode funcionar com lr decay
Ideal (ex: 3e-4)	Converge de forma suave e estável	O sweet spot — achar esse valor é arte + ciência
Muito pequena (ex: 1e-6)	Convergência extremamente lenta	Desperdiça compute; pode ficar preso em mínimo local

Learning RateMuito grande (ex: 0.1)

ComportamentoPesos oscilam violentamente, loss sobe e desce

ResultadoDivergência — modelo não aprende

Learning RateGrande (ex: 0.01)

ComportamentoConverge rápido no início, mas instável perto do mínimo

ResultadoPode funcionar com lr decay

Learning RateIdeal (ex: 3e-4)

ComportamentoConverge de forma suave e estável

ResultadoO sweet spot — achar esse valor é arte + ciência

Learning RateMuito pequena (ex: 1e-6)

ComportamentoConvergência extremamente lenta

ResultadoDesperdiça compute; pode ficar preso em mínimo local

⚠️

Backpropagation: como calcular bilhões de gradientes

🗺️ Forward Pass + Backward Pass

Forward Pass

▼

Backward Pass (backprop)

▼

Atualização de pesos

🗺️ Regra da cadeia — rede de 3 camadas

x → [W₁] → h₁

h₁ → [W₂] → h₂

h₂ → [W₃] → ŷ

ŷ → Loss calculada

∂Loss/∂W₃ = ∂Loss/∂ŷ × ∂ŷ/∂W₃

∂Loss/∂W₂ = … × ∂h₂/∂W₂

∂Loss/∂W₁ = … × ∂h₁/∂W₁

Reutiliza gradientes já computados

Cada gradiente calculado 1× apenas

Armazenado e reutilizado pelas camadas anteriores

7B params = 7B gradientes em O(7B) ops

Sem backprop: O(49B²) — inviável

Épocas, batches e iterações

O treinamento não processa todos os dados de uma vez. Três conceitos definem a granularidade:

Conceito	Definição	Exemplo (100k amostras, batch 256)
Iteração	1 forward + backward + update em 1 mini-batch	1 iteração = 256 amostras processadas
Época	1 passagem completa pelo dataset inteiro	100k / 256 ≈ 390 iterações = 1 época
Mini-batch	Subconjunto dos dados processado de uma vez	Tamanhos comuns: 32, 64, 128, 256, 512

ConceitoIteração

Definição1 forward + backward + update em 1 mini-batch

Exemplo (100k amostras, batch 256)1 iteração = 256 amostras processadas

ConceitoÉpoca

Definição1 passagem completa pelo dataset inteiro

Exemplo (100k amostras, batch 256)100k / 256 ≈ 390 iterações = 1 época

ConceitoMini-batch

DefiniçãoSubconjunto dos dados processado de uma vez

Exemplo (100k amostras, batch 256)Tamanhos comuns: 32, 64, 128, 256, 512

🗺️ Batch GD vs Mini-Batch GD vs SGD

Processa 100k exemplos de uma vez

→ 1 atualização por época

✓ Gradiente matematicamente preciso

✗ Não cabe na VRAM da GPU

✗ Convergência lenta (poucas updates)

batch_size = 32-512 exemplos

→ ~390 atualizações por época

✓ Cabe na VRAM da GPU

✓ Ruído ajuda a escapar mínimos rasos

✓ Melhor trade-off velocidade/precisão

batch_size = 1 exemplo

→ 100k atualizações por época

✓ Atualiza com frequência máxima

✗ Gradiente extremamente ruidoso

✗ Não usa paralelismo da GPU

Otimizadores: além do SGD

Otimizador	Ideia central	Usado em
SGD	w = w - lr × g. Simples, sem estado.	Baseline, CNNs com fine-tuning
SGD + Momentum	Mantém velocidade (média móvel do gradiente). Suaviza oscilações.	CNNs, ResNets
RMSProp	Divide lr pela média móvel de g². Normaliza a escala por parâmetro.	RNNs (historicamente)
Adam	Combina Momentum + RMSProp. lr adaptativa por parâmetro.	Default na maioria dos cenários
AdamW	Adam + weight decay desacoplado. Regularização mais correta.	LLMs (GPT, LLaMA, Claude)

OtimizadorSGD

Ideia centralw = w - lr × g. Simples, sem estado.

Usado emBaseline, CNNs com fine-tuning

OtimizadorSGD + Momentum

Ideia centralMantém velocidade (média móvel do gradiente). Suaviza oscilações.

Usado emCNNs, ResNets

OtimizadorRMSProp

Ideia centralDivide lr pela média móvel de g². Normaliza a escala por parâmetro.

Usado emRNNs (historicamente)

OtimizadorAdam

Ideia centralCombina Momentum + RMSProp. lr adaptativa por parâmetro.

Usado emDefault na maioria dos cenários

OtimizadorAdamW

Ideia centralAdam + weight decay desacoplado. Regularização mais correta.

Usado emLLMs (GPT, LLaMA, Claude)

# Adam em pseudocódigo:
# m = média móvel do gradiente (momento)
# v = média móvel do gradiente² (variância)
# beta1=0.9, beta2=0.999, eps=1e-8

m = beta1 * m + (1 - beta1) * g          # atualiza momento
v = beta2 * v + (1 - beta2) * g**2       # atualiza variância
m_hat = m / (1 - beta1**t)          # correção de bias
v_hat = v / (1 - beta2**t)          # correção de bias
w = w - lr * m_hat / (sqrt(v_hat) + eps)  # atualiza peso

# Intuição: parâmetros com gradientes grandes e consistentes
# recebem steps menores. Parâmetros com gradientes pequenos
# recebem steps proporcionalmente maiores.

📋 Qual otimizador usar?

✓ AdamW

Default seguro para 90% dos casos. lr=3e-4 com warmup + cosine decay é o ponto de partida mais testado. Todos os LLMs modernos usam AdamW.

Alt: SGD + Momentum —

O ciclo completo: treinamento end-to-end

🗺️ Loop de treinamento

Dataset

▼

Forward Pass

▼

Backward Pass

▼

Atualização

▼

Validação

Quando parar? Underfitting vs Overfitting

Problema	Sintoma	Solução
Underfitting	Train loss alta, val loss alta	Modelo maior, mais épocas, lr maior, features melhores
Overfitting	Train loss baixa, val loss sobe	Mais dados, dropout, weight decay, early stopping, data augmentation
Bom fit	Ambas baixas, gap pequeno	Manter — esse é o objetivo

ProblemaUnderfitting

SintomaTrain loss alta, val loss alta

SoluçãoModelo maior, mais épocas, lr maior, features melhores

ProblemaOverfitting

SintomaTrain loss baixa, val loss sobe

SoluçãoMais dados, dropout, weight decay, early stopping, data augmentation

ProblemaBom fit

SintomaAmbas baixas, gap pequeno

SoluçãoManter — esse é o objetivo

Perguntas e respostas

❓ Pré-treino de LLMs usa qual paradigma?

❓ O que é gradient clipping e por que LLMs precisam?

❓ Por que não usar learning rate alta com scheduler e pronto?

✅

Como a IA Aprende (Machine Learning)

Os três paradigmas de aprendizado

Loss function: medindo o erro

Gradiente descendente: encontrando o mínimo

Learning rate: o hiperparâmetro mais importante

Backpropagation: como calcular bilhões de gradientes

Épocas, batches e iterações

Otimizadores: além do SGD

O ciclo completo: treinamento end-to-end

Quando parar? Underfitting vs Overfitting

Perguntas e respostas

Próximos passos sugeridos

Discussão

Como a IA Aprende (Machine Learning)

Os três paradigmas de aprendizado

Loss function: medindo o erro

Gradiente descendente: encontrando o mínimo

Learning rate: o hiperparâmetro mais importante

Backpropagation: como calcular bilhões de gradientes

Épocas, batches e iterações

Otimizadores: além do SGD

O ciclo completo: treinamento end-to-end

Quando parar? Underfitting vs Overfitting

Perguntas e respostas

Próximos passos sugeridos

Discussão