GPT-4 tem estimados 1.7 trilhoes de parametros — mas ativar todos a cada token seria computacionalmente impossivel. A solucao: Mixture of Experts (MoE), uma arquitetura que escala parametros sem escalar compute proporcionalmente. Neste artigo, voce vai entender como o router seleciona experts, o problema de load balancing, e por que MoE dominou os modelos frontier.

A ideia: parametros abundantes, compute seletivo

Em um Transformer denso (como LLaMA), todos os parametros sao usados para processar cada token. Em MoE, a camada FFN (feed-forward network) e substituida por multiplos experts — cada um e um FFN independente — e um router decide quais ativar.

🗺️ Dense vs MoE — arquitetura comparada

Token → Self-Attention → FFN → output

FFN usa 100% dos parâmetros

Todo token passa por todos os pesos

70B params totais · 70B ativos/token

Token → Self-Attention → Router → top-2 experts

Router seleciona 2 de 8 experts

Expert 1 + Expert 2 ativados

Expert 3..8 dormindo (gradiente zero)

47B params totais · ~13B ativos/token

💡

O trade-off fundamental: MoE tem compute de modelo pequeno mas memoria de modelo grande. Todos os experts precisam estar na VRAM mesmo que so 2 de 8 sejam usados por token.

O Router: como escolher experts

O router e uma pequena rede (geralmente uma camada linear + softmax) que recebe a representacao do token e produz uma distribuicao de probabilidade sobre os experts.

🗺️ Router top-k — token "implementação" → seleção de experts

Token "implementação"Representação vetorial d-dimensional do token atual

Router: W_gate × tokenScores: Expert1=0.05 · Expert2=0.41★ · Expert3=0.02 · Expert4=0.31★ · Expert5–8=0.08–0.03

Top-2 selecionadosExpert 2 (0.41) + Expert 4 (0.31) → normalizados: 0.57 e 0.43

Output combinado0.57 × Expert2(token) + 0.43 × Expert4(token) — experts 1,3,5–8: gradiente ZERO

# Router simplificado em PyTorch
import torch
import torch.nn.functional as F

class Router(torch.nn.Module):
    def __init__(self, d_model, num_experts, top_k=2):
        super().__init__()
        self.gate = torch.nn.Linear(d_model, num_experts, bias=False)
        self.top_k = top_k

    def forward(self, x):
        # x: (batch, seq_len, d_model)
        logits = self.gate(x)              # (batch, seq_len, num_experts)
        scores = F.softmax(logits, dim=-1)
        top_scores, top_indices = scores.topk(self.top_k, dim=-1)
        top_scores = top_scores / top_scores.sum(dim=-1, keepdim=True)
        return top_scores, top_indices

Load Balancing: o problema central

Se o router prefere poucos experts, os outros nao recebem gradientes e nao treinam. Isso e expert collapse — o modelo desperica a maioria da sua capacidade.

Tecnica	Como funciona	Usado em
Auxiliary load balancing loss	Adiciona um termo a loss que penaliza distribuicao desigual de tokens entre experts	Switch Transformer, Mixtral, GPT-4 (provavel)
Expert capacity	Limita o numero maximo de tokens que cada expert pode processar. Excedente e descartado ou roteado para outro.	Switch Transformer, GShard
Noise in router	Adiciona ruido gaussiano aos logits do router durante treino para explorar experts menos usados	ST-MoE, Mixtral
Auxiliary-loss-free balancing	Bias adaptativo no router sem distorcer a loss principal	DeepSeek v3 (inovacao chave)

TecnicaAuxiliary load balancing loss

Como funcionaAdiciona um termo a loss que penaliza distribuicao desigual de tokens entre experts

Usado emSwitch Transformer, Mixtral, GPT-4 (provavel)

TecnicaExpert capacity

Como funcionaLimita o numero maximo de tokens que cada expert pode processar. Excedente e descartado ou roteado para outro.

Usado emSwitch Transformer, GShard

TecnicaNoise in router

Como funcionaAdiciona ruido gaussiano aos logits do router durante treino para explorar experts menos usados

Usado emST-MoE, Mixtral

TecnicaAuxiliary-loss-free balancing

Como funcionaBias adaptativo no router sem distorcer a loss principal

Usado emDeepSeek v3 (inovacao chave)

Modelos MoE reais

Modelo	Params totais	Params ativos	Experts	Top-k	Performance
Mixtral 8x7B	47B	~13B	8	2	~ LLaMA 2 70B (dense) com 5x menos compute
Mixtral 8x22B	176B	~44B	8	2	Compete com GPT-3.5 Turbo
GPT-4 (estimado)	~1.7T	~220B	~16	~2	Frontier (ate mar/2024)
DeepSeek v3	671B	~37B	256	8	Compete com GPT-4o por ~$5.5M de treino
Grok-1 (xAI)	314B	~79B	8	2	Open-source, competitivo com Mixtral

ModeloMixtral 8x7B

Params totais47B

Params ativos~13B

Experts8

Top-k2

Performance~ LLaMA 2 70B (dense) com 5x menos compute

ModeloMixtral 8x22B

Params totais176B

Params ativos~44B

Experts8

Top-k2

PerformanceCompete com GPT-3.5 Turbo

ModeloGPT-4 (estimado)

Params totais~1.7T

Params ativos~220B

Experts~16

Top-k~2

PerformanceFrontier (ate mar/2024)

ModeloDeepSeek v3

Params totais671B

Params ativos~37B

Experts256

Top-k8

PerformanceCompete com GPT-4o por ~$5.5M de treino

ModeloGrok-1 (xAI)

Params totais314B

Params ativos~79B

Experts8

Top-k2

PerformanceOpen-source, competitivo com Mixtral

💡

DeepSeek v3 e notavel: 256 experts com top-8 ativacao + 1 expert compartilhado (sempre ativo). O expert compartilhado captura conhecimento geral; os especializados cobrem dominios. MLA (Multi-head Latent Attention) comprime K/V em latent space, reduzindo o KV Cache drasticamente.

Expert Parallelism: como servir MoE em clusters

Um MoE de 671B params (DeepSeek v3) não cabe em uma única GPU — nem em 8. O serving requer estratégias específicas de paralelismo. Em modelos densos, o padrão é tensor parallelism (dividir matrizes entre GPUs). Em MoE, adiciona-se expert parallelism: cada GPU hospeda um subconjunto de experts.

🗺️ Expert Parallelism — 8 experts em 4 GPUs

Expert 1 (hospedado)

Expert 2 (hospedado)

Attention layers (compartilhadas)

Recebe tokens roteados p/ E1/E2

Expert 3 (hospedado)

Expert 4 (hospedado)

Attention layers (compartilhadas)

Recebe tokens roteados p/ E3/E4

Expert 5 (hospedado)

Expert 6 (hospedado)

Attention layers (compartilhadas)

Recebe tokens roteados p/ E5/E6

Expert 7 (hospedado)

Expert 8 (hospedado)

Attention layers (compartilhadas)

Recebe tokens roteados p/ E7/E8

Estratégia	O que faz	Trade-off
Expert Parallelism	Diferentes GPUs hospedam diferentes experts. All-to-all communication move tokens entre GPUs.	Alta largura de banda inter-GPU necessária (NVLink)
Tensor Parallelism	Divide cada camada entre GPUs (matrizes particionadas).	Funciona bem para attention; usado em conjunto com EP
Expert Offloading	Experts inativos ficam na RAM CPU; carregados na GPU quando chamados.	Latência alta (PCIe ~10x mais lento que HBM)
Token Dropping	Se um expert excede capacidade, tokens em excesso são descartados (skip).	Perda de qualidade controlável com buffer capacity

EstratégiaExpert Parallelism

O que fazDiferentes GPUs hospedam diferentes experts. All-to-all communication move tokens entre GPUs.

Trade-offAlta largura de banda inter-GPU necessária (NVLink)

EstratégiaTensor Parallelism

O que fazDivide cada camada entre GPUs (matrizes particionadas).

Trade-offFunciona bem para attention; usado em conjunto com EP

EstratégiaExpert Offloading

O que fazExperts inativos ficam na RAM CPU; carregados na GPU quando chamados.

Trade-offLatência alta (PCIe ~10x mais lento que HBM)

EstratégiaToken Dropping

O que fazSe um expert excede capacidade, tokens em excesso são descartados (skip).

Trade-offPerda de qualidade controlável com buffer capacity

⚠️

O gargalo real em MoE serving é o all-to-all communication: cada token precisa ser enviado para a GPU que hospeda o expert selecionado. Com batch grande, isso gera tráfego massivo entre GPUs. Por isso NVLink (600 GB/s) é praticamente obrigatório para clusters MoE eficientes — Ethernet (100 Gbps) causa degradação severa de throughput.

Fine-tuning MoE: complexidades práticas

Fine-tuning de modelos MoE é mais complexo que modelos densos. A principal questão: o router deve ser atualizado? E se sim, como evitar que o fine-tuning colapse a especialização aprendida no pré-treino?

Abordagem	O que congela	Quando usar	Risco
Full fine-tuning	Nada — atualiza tudo incluindo router	Quando tem dados suficientes (>100k exemplos)	Router pode colapsar especializações do pré-treino
LoRA nos experts	Pesos base dos experts; treina adaptadores LoRA	Fine-tuning eficiente em domínio específico	LoRA pode conflitar se expert não for ativado para o domínio
Congelar router	Router congelado; atualiza apenas experts	Preservar routing do pré-treino ao especializar	Router pré-treino pode não ser ótimo para nova tarefa
Congelar experts inativos	Só atualiza experts ativados para o domínio	Máxima eficiência; mínima interferência	Identificar quais experts são relevantes é não-trivial

AbordagemFull fine-tuning

O que congelaNada — atualiza tudo incluindo router

Quando usarQuando tem dados suficientes (>100k exemplos)

RiscoRouter pode colapsar especializações do pré-treino

AbordagemLoRA nos experts

O que congelaPesos base dos experts; treina adaptadores LoRA

Quando usarFine-tuning eficiente em domínio específico

RiscoLoRA pode conflitar se expert não for ativado para o domínio

AbordagemCongelar router

O que congelaRouter congelado; atualiza apenas experts

Quando usarPreservar routing do pré-treino ao especializar

RiscoRouter pré-treino pode não ser ótimo para nova tarefa

AbordagemCongelar experts inativos

O que congelaSó atualiza experts ativados para o domínio

Quando usarMáxima eficiência; mínima interferência

RiscoIdentificar quais experts são relevantes é não-trivial

💡

MoE + LoRA na prática: a implementação mais comum aplica LoRA em todos os experts com rank baixo (r=8 ou r=16). Durante o fine-tuning, apenas os adaptadores LoRA dos experts ativados recebem gradiente — comportamento análogo ao routing normal. O router geralmente é congelado. Custo: ~2% dos parâmetros treináveis de um full fine-tune.

❓ Vale a pena fazer fine-tuning de Mixtral 8x7B vs LLaMA 3 70B para o mesmo caso de uso?

Depende do compute disponível. Mixtral 8x7B tem ~13B params ativos (compute similar a um denso de 13B) mas precisa de 47B na VRAM. LLaMA 3 70B requer 70B na VRAM. Se VRAM é o gargalo: Mixtral vence (mais qualidade por VRAM com offloading). Se latência é crítica: LLaMA 3 70B em tensor-parallel costuma ser mais previsível. Para a maioria dos casos de uso empresariais, LLaMA 3 70B dense é mais simples e suficiente.

MoE vs Dense: quando usar cada um

📋 Qual arquitetura para um LLM de uso geral em producao?

✓ MoE

Para modelos frontier (>100B params), MoE e essencial. O custo de servir um modelo denso de 1.7T params seria astronomico. MoE permite escalara parametros sem escalar compute linearmente.

Alt: Dense —

Fator	Dense	MoE
Compute por token	Proporcional aos params totais	Proporcional aos params ATIVOS (muito menor)
VRAM necessaria	Proporcional aos params totais	Proporcional aos params TOTAIS (todos os experts na memoria)
Complexidade de servir	Simples — sharding padrao	Complexo — expert parallelism + routing overhead
Escalabilidade	Linear: 2x params = 2x compute	Sublinear: 2x params pode ser apenas 1.2x compute
Treinamento	Estavel, bem compreendido	Load balancing e instabilidade sao desafios ativos
Fine-tuning	Simples — LoRA/QLoRA padrao	Complexo — quais experts atualizar? Router muda?

FatorCompute por token

DenseProporcional aos params totais

MoEProporcional aos params ATIVOS (muito menor)

FatorVRAM necessaria

DenseProporcional aos params totais

MoEProporcional aos params TOTAIS (todos os experts na memoria)

FatorComplexidade de servir

DenseSimples — sharding padrao

MoEComplexo — expert parallelism + routing overhead

FatorEscalabilidade

DenseLinear: 2x params = 2x compute

MoESublinear: 2x params pode ser apenas 1.2x compute

FatorTreinamento

DenseEstavel, bem compreendido

MoELoad balancing e instabilidade sao desafios ativos

FatorFine-tuning

DenseSimples — LoRA/QLoRA padrao

MoEComplexo — quais experts atualizar? Router muda?

DeepSeek v3: anatomia de um MoE de fronteira barato

DeepSeek v3 (dezembro 2024) abalou a indústria ao demonstrar que um modelo competitivo com GPT-4o podia ser treinado por ~$5,5M — enquanto estimativas de GPT-4 falam em $100M+. As inovações técnicas foram específicas e complementares:

🗺️ As 4 inovações-chave do DeepSeek v3

Comprime K/V em latent space antes de armazenar no KV Cache

KV Cache ~90% menor que Multi-Head Attention padrão

Crítico: KV Cache é o gargalo de memória em long contexts

Projeta K,V de d_model para d_latent (muito menor)

MoE padrão adiciona load balancing loss

Essa loss distorce o gradiente principal

DeepSeek v3: bias adaptativo por expert no router

Sem loss auxiliar: gradiente limpo, convergência melhor

Maioria das operações em FP8 (8-bit float)

FP16 só onde numericamente crítico

Reduz memória e compute ~2x vs FP16

Requer calibração cuidadosa para evitar divergência

256 routed experts + 1 expert compartilhado

Expert compartilhado sempre ativado: captura geral

Top-8 de 256 routed: especialização fina

671B total · ~37B ativos por token

💡

O resultado: DeepSeek v3 treinou 14.8T tokens em ~2.788 GPU-days (H800 SXM). Modelos concorrentes estimam 30-50× mais compute para qualidade similar. A lição não é "GPUs baratas" — é eficiência de algoritmo compensa hardware. O paper completo está disponível no arXiv e é uma leitura obrigatória para quem trabalha com infraestrutura de LLMs.

Perguntas e respostas

❓ Cada expert se especializa em um dominio (codigo, matematica, etc.)?

Na teoria, sim. Na pratica, a especializacao e mais sutil: experts tendem a se especializar em padroes sintaticos (tokens de pontuacao, inicio de frase, numeros) mais do que em dominios semanticos. Analises do Mixtral mostram que a maioria dos experts e “generalista” com leves preferencias, nao especialistas puros.

❓ Posso rodar um MoE em hardware menor se so carregar 2 experts?

Em teoria parcialmente — e o conceito de “expert offloading”: manter experts inativos na RAM e carregar na GPU sob demanda. Funciona mas adiciona latencia significativa (PCIe e ~10x mais lento que HBM). Mixtral 8x7B com offloading roda em GPUs de 24GB mas com throughput muito menor que carregar tudo na VRAM.

❓ O router e treinado junto com os experts?

Sim. O router e uma camada linear cujos pesos sao aprendidos end-to-end via backpropagation. O gradiente flui do output, passa pelos experts ativados, e volta ao router. O desafio: o gradiente so flui pelos top-k experts selecionados — os outros nao recebem sinal, o que pode causar collapse sem a load balancing loss.

✅

O que voce aprendeu: MoE substitui o FFN por multiplos experts + router. Apenas top-k experts sao ativados por token — compute de modelo pequeno, memoria de modelo grande. Load balancing e critico para evitar expert collapse. Modelos frontier (GPT-4, DeepSeek v3) usam MoE massivo. DeepSeek v3 mostrou que inovacao em training efficiency (MLA + auxiliary-loss-free balancing + FP8) pode competir com budgets 20x maiores. Proximo: como LLMs interagem com o mundo real — Tool Calling.

A ideia: parametros abundantes, compute seletivo

🗺️ Dense vs MoE — arquitetura comparada

Token → Self-Attention → FFN → output

FFN usa 100% dos parâmetros

Todo token passa por todos os pesos

70B params totais · 70B ativos/token

Token → Self-Attention → Router → top-2 experts

Router seleciona 2 de 8 experts

Expert 1 + Expert 2 ativados

Expert 3..8 dormindo (gradiente zero)

47B params totais · ~13B ativos/token

💡

O trade-off fundamental: MoE tem compute de modelo pequeno mas memoria de modelo grande. Todos os experts precisam estar na VRAM mesmo que so 2 de 8 sejam usados por token.

O Router: como escolher experts

O router e uma pequena rede (geralmente uma camada linear + softmax) que recebe a representacao do token e produz uma distribuicao de probabilidade sobre os experts.

🗺️ Router top-k — token "implementação" → seleção de experts

Token "implementação"Representação vetorial d-dimensional do token atual

Router: W_gate × tokenScores: Expert1=0.05 · Expert2=0.41★ · Expert3=0.02 · Expert4=0.31★ · Expert5–8=0.08–0.03

Top-2 selecionadosExpert 2 (0.41) + Expert 4 (0.31) → normalizados: 0.57 e 0.43

Output combinado0.57 × Expert2(token) + 0.43 × Expert4(token) — experts 1,3,5–8: gradiente ZERO

# Router simplificado em PyTorch
import torch
import torch.nn.functional as F

class Router(torch.nn.Module):
    def __init__(self, d_model, num_experts, top_k=2):
        super().__init__()
        self.gate = torch.nn.Linear(d_model, num_experts, bias=False)
        self.top_k = top_k

    def forward(self, x):
        # x: (batch, seq_len, d_model)
        logits = self.gate(x)              # (batch, seq_len, num_experts)
        scores = F.softmax(logits, dim=-1)
        top_scores, top_indices = scores.topk(self.top_k, dim=-1)
        top_scores = top_scores / top_scores.sum(dim=-1, keepdim=True)
        return top_scores, top_indices

Load Balancing: o problema central

Se o router prefere poucos experts, os outros nao recebem gradientes e nao treinam. Isso e expert collapse — o modelo desperica a maioria da sua capacidade.

Tecnica	Como funciona	Usado em
Auxiliary load balancing loss	Adiciona um termo a loss que penaliza distribuicao desigual de tokens entre experts	Switch Transformer, Mixtral, GPT-4 (provavel)
Expert capacity	Limita o numero maximo de tokens que cada expert pode processar. Excedente e descartado ou roteado para outro.	Switch Transformer, GShard
Noise in router	Adiciona ruido gaussiano aos logits do router durante treino para explorar experts menos usados	ST-MoE, Mixtral
Auxiliary-loss-free balancing	Bias adaptativo no router sem distorcer a loss principal	DeepSeek v3 (inovacao chave)

TecnicaAuxiliary load balancing loss

Como funcionaAdiciona um termo a loss que penaliza distribuicao desigual de tokens entre experts

Usado emSwitch Transformer, Mixtral, GPT-4 (provavel)

TecnicaExpert capacity

Como funcionaLimita o numero maximo de tokens que cada expert pode processar. Excedente e descartado ou roteado para outro.

Usado emSwitch Transformer, GShard

TecnicaNoise in router

Como funcionaAdiciona ruido gaussiano aos logits do router durante treino para explorar experts menos usados

Usado emST-MoE, Mixtral

TecnicaAuxiliary-loss-free balancing

Como funcionaBias adaptativo no router sem distorcer a loss principal

Usado emDeepSeek v3 (inovacao chave)

Modelos MoE reais

Modelo	Params totais	Params ativos	Experts	Top-k	Performance
Mixtral 8x7B	47B	~13B	8	2	~ LLaMA 2 70B (dense) com 5x menos compute
Mixtral 8x22B	176B	~44B	8	2	Compete com GPT-3.5 Turbo
GPT-4 (estimado)	~1.7T	~220B	~16	~2	Frontier (ate mar/2024)
DeepSeek v3	671B	~37B	256	8	Compete com GPT-4o por ~$5.5M de treino
Grok-1 (xAI)	314B	~79B	8	2	Open-source, competitivo com Mixtral

ModeloMixtral 8x7B

Params totais47B

Params ativos~13B

Experts8

Top-k2

Performance~ LLaMA 2 70B (dense) com 5x menos compute

ModeloMixtral 8x22B

Params totais176B

Params ativos~44B

Experts8

Top-k2

PerformanceCompete com GPT-3.5 Turbo

ModeloGPT-4 (estimado)

Params totais~1.7T

Params ativos~220B

Experts~16

Top-k~2

PerformanceFrontier (ate mar/2024)

ModeloDeepSeek v3

Params totais671B

Params ativos~37B

Experts256

Top-k8

PerformanceCompete com GPT-4o por ~$5.5M de treino

ModeloGrok-1 (xAI)

Params totais314B

Params ativos~79B

Experts8

Top-k2

PerformanceOpen-source, competitivo com Mixtral

💡

Expert Parallelism: como servir MoE em clusters

🗺️ Expert Parallelism — 8 experts em 4 GPUs

Expert 1 (hospedado)

Expert 2 (hospedado)

Attention layers (compartilhadas)

Recebe tokens roteados p/ E1/E2

Expert 3 (hospedado)

Expert 4 (hospedado)

Attention layers (compartilhadas)

Recebe tokens roteados p/ E3/E4

Expert 5 (hospedado)

Expert 6 (hospedado)

Attention layers (compartilhadas)

Recebe tokens roteados p/ E5/E6

Expert 7 (hospedado)

Expert 8 (hospedado)

Attention layers (compartilhadas)

Recebe tokens roteados p/ E7/E8

Estratégia	O que faz	Trade-off
Expert Parallelism	Diferentes GPUs hospedam diferentes experts. All-to-all communication move tokens entre GPUs.	Alta largura de banda inter-GPU necessária (NVLink)
Tensor Parallelism	Divide cada camada entre GPUs (matrizes particionadas).	Funciona bem para attention; usado em conjunto com EP
Expert Offloading	Experts inativos ficam na RAM CPU; carregados na GPU quando chamados.	Latência alta (PCIe ~10x mais lento que HBM)
Token Dropping	Se um expert excede capacidade, tokens em excesso são descartados (skip).	Perda de qualidade controlável com buffer capacity

EstratégiaExpert Parallelism

O que fazDiferentes GPUs hospedam diferentes experts. All-to-all communication move tokens entre GPUs.

Trade-offAlta largura de banda inter-GPU necessária (NVLink)

EstratégiaTensor Parallelism

O que fazDivide cada camada entre GPUs (matrizes particionadas).

Trade-offFunciona bem para attention; usado em conjunto com EP

EstratégiaExpert Offloading

O que fazExperts inativos ficam na RAM CPU; carregados na GPU quando chamados.

Trade-offLatência alta (PCIe ~10x mais lento que HBM)

EstratégiaToken Dropping

O que fazSe um expert excede capacidade, tokens em excesso são descartados (skip).

Trade-offPerda de qualidade controlável com buffer capacity

⚠️

Fine-tuning MoE: complexidades práticas

Abordagem	O que congela	Quando usar	Risco
Full fine-tuning	Nada — atualiza tudo incluindo router	Quando tem dados suficientes (>100k exemplos)	Router pode colapsar especializações do pré-treino
LoRA nos experts	Pesos base dos experts; treina adaptadores LoRA	Fine-tuning eficiente em domínio específico	LoRA pode conflitar se expert não for ativado para o domínio
Congelar router	Router congelado; atualiza apenas experts	Preservar routing do pré-treino ao especializar	Router pré-treino pode não ser ótimo para nova tarefa
Congelar experts inativos	Só atualiza experts ativados para o domínio	Máxima eficiência; mínima interferência	Identificar quais experts são relevantes é não-trivial

AbordagemFull fine-tuning

O que congelaNada — atualiza tudo incluindo router

Quando usarQuando tem dados suficientes (>100k exemplos)

RiscoRouter pode colapsar especializações do pré-treino

AbordagemLoRA nos experts

O que congelaPesos base dos experts; treina adaptadores LoRA

Quando usarFine-tuning eficiente em domínio específico

RiscoLoRA pode conflitar se expert não for ativado para o domínio

AbordagemCongelar router

O que congelaRouter congelado; atualiza apenas experts

Quando usarPreservar routing do pré-treino ao especializar

RiscoRouter pré-treino pode não ser ótimo para nova tarefa

AbordagemCongelar experts inativos

O que congelaSó atualiza experts ativados para o domínio

Quando usarMáxima eficiência; mínima interferência

RiscoIdentificar quais experts são relevantes é não-trivial

💡

❓ Vale a pena fazer fine-tuning de Mixtral 8x7B vs LLaMA 3 70B para o mesmo caso de uso?

MoE vs Dense: quando usar cada um

📋 Qual arquitetura para um LLM de uso geral em producao?

✓ MoE

Para modelos frontier (>100B params), MoE e essencial. O custo de servir um modelo denso de 1.7T params seria astronomico. MoE permite escalara parametros sem escalar compute linearmente.

Alt: Dense —

Fator	Dense	MoE
Compute por token	Proporcional aos params totais	Proporcional aos params ATIVOS (muito menor)
VRAM necessaria	Proporcional aos params totais	Proporcional aos params TOTAIS (todos os experts na memoria)
Complexidade de servir	Simples — sharding padrao	Complexo — expert parallelism + routing overhead
Escalabilidade	Linear: 2x params = 2x compute	Sublinear: 2x params pode ser apenas 1.2x compute
Treinamento	Estavel, bem compreendido	Load balancing e instabilidade sao desafios ativos
Fine-tuning	Simples — LoRA/QLoRA padrao	Complexo — quais experts atualizar? Router muda?

FatorCompute por token

DenseProporcional aos params totais

MoEProporcional aos params ATIVOS (muito menor)

FatorVRAM necessaria

DenseProporcional aos params totais

MoEProporcional aos params TOTAIS (todos os experts na memoria)

FatorComplexidade de servir

DenseSimples — sharding padrao

MoEComplexo — expert parallelism + routing overhead

FatorEscalabilidade

DenseLinear: 2x params = 2x compute

MoESublinear: 2x params pode ser apenas 1.2x compute

FatorTreinamento

DenseEstavel, bem compreendido

MoELoad balancing e instabilidade sao desafios ativos

FatorFine-tuning

DenseSimples — LoRA/QLoRA padrao

MoEComplexo — quais experts atualizar? Router muda?

DeepSeek v3: anatomia de um MoE de fronteira barato

🗺️ As 4 inovações-chave do DeepSeek v3

Comprime K/V em latent space antes de armazenar no KV Cache

KV Cache ~90% menor que Multi-Head Attention padrão

Crítico: KV Cache é o gargalo de memória em long contexts

Projeta K,V de d_model para d_latent (muito menor)

MoE padrão adiciona load balancing loss

Essa loss distorce o gradiente principal

DeepSeek v3: bias adaptativo por expert no router

Sem loss auxiliar: gradiente limpo, convergência melhor

Maioria das operações em FP8 (8-bit float)

FP16 só onde numericamente crítico

Reduz memória e compute ~2x vs FP16

Requer calibração cuidadosa para evitar divergência

256 routed experts + 1 expert compartilhado

Expert compartilhado sempre ativado: captura geral

Top-8 de 256 routed: especialização fina

671B total · ~37B ativos por token

💡

Perguntas e respostas

❓ Cada expert se especializa em um dominio (codigo, matematica, etc.)?

❓ Posso rodar um MoE em hardware menor se so carregar 2 experts?

❓ O router e treinado junto com os experts?

✅

Mixture of Experts (MoE)

A ideia: parametros abundantes, compute seletivo

O Router: como escolher experts

Load Balancing: o problema central

Modelos MoE reais

Expert Parallelism: como servir MoE em clusters

Fine-tuning MoE: complexidades práticas

MoE vs Dense: quando usar cada um

DeepSeek v3: anatomia de um MoE de fronteira barato

Perguntas e respostas

Próximos passos sugeridos

Discussão

Mixture of Experts (MoE)

A ideia: parametros abundantes, compute seletivo

O Router: como escolher experts

Load Balancing: o problema central

Modelos MoE reais

Expert Parallelism: como servir MoE em clusters

Fine-tuning MoE: complexidades práticas

MoE vs Dense: quando usar cada um

DeepSeek v3: anatomia de um MoE de fronteira barato

Perguntas e respostas

Próximos passos sugeridos

Discussão