📖 Glossário Técnico

44 termos — IA, cloud, engenharia e sistemas distribuídos em PT-BR.

Agent Harness

Infraestrutura ao redor do LLM que gerencia loop de decisão: system prompt, tool calls, permissões, context management, hooks. Claude Code é um harness; agent SDK permite criar harnesses customizados.

Tool Use (Function Calling)

Agents (LLM)

LLM em loop: recebe objetivo → decide tool call → executa → observa → itera até completar. Requer tool use, memória, permissões. Claude Code, AutoGPT, crewAI são exemplos.

Tool Use (Function Calling)Agent Harness MCP (Model Context Protocol)

ANN (Approximate Nearest Neighbors)

Busca aproximada em vetores alta-dimensão: HNSW (grafos), IVF (clusters), LSH. Trade-off recall × latency × memória. Usado em todo vector DB.

Vector Database Embedding

Attention (Mecanismo de Atenção)

Mecanismo que permite ao modelo pesar a importância relativa de cada token em relação a todos os outros na sequência.

Transformer Self-Attention

Backpropagation

Algoritmo que calcula o gradiente da loss em relação a cada peso da rede, propagando o erro da saída para a entrada.

Gradient Descent Loss Function (Função de Custo)

BPE (Byte Pair Encoding)

Algoritmo de tokenização que funde iterativamente os pares de bytes mais frequentes até atingir o tamanho desejado de vocabulário.

Token

Constitutional AI

Método da Anthropic: modelo se auto-critica seguindo princípios (a "constituição") antes de responder. Reduz conteúdo prejudicial sem humano anotando cada exemplo.

RLHF

Context Window

Quantidade máxima de tokens que um LLM pode processar numa única chamada (inclui prompt + resposta).

Token LLM (Large Language Model)

Cosine Similarity

Medida de similaridade entre dois vetores baseada no ângulo entre eles (0 = ortogonais, 1 = idênticos).

Embedding

DPO (Direct Preference Optimization)

Alternativa ao RLHF: otimiza diretamente com pares (preferida, rejeitada) sem reward model separado. Mais simples, resultados competitivos. Adoção rápida pós-paper 2023.

RLHF

Dropout

Técnica de regularização que desativa neurônios aleatoriamente durante o treino, forçando redundância.

Overfitting Regularização (L1/L2)

Embedding

Vetor numérico que representa o significado semântico de um texto, imagem ou dado estruturado num espaço contínuo.

Token Cosine Similarity

Error Budget

Margem de erro tolerada por um SLO (ex: se SLO é 99,9%, o budget é 0,1% = 43,2 min/mês).

SLO (Service Level Objective)

Golden Set

Dataset curado de referência usado pra avaliar consistentemente mudanças em prompts/modelos/arch. Deve ser stratified (easy/medium/hard), annotated, sem contamination com training data.

LLM-as-Judge

Gradient Descent

Otimizador que ajusta pesos na direção oposta ao gradiente da loss, iterativamente reduzindo o erro.

Backpropagation Learning Rate

IAM (Identity and Access Management)

Serviço AWS que controla quem (identidade) pode fazer o quê (permissões) em quais recursos.

Idempotência

Propriedade onde executar uma operação N vezes produz o mesmo resultado que executá-la uma vez.

Inference

Rodar modelo já treinado pra gerar output. Bottleneck: memória (KV cache) + compute. Otimizações: quantization, speculative decoding, batching dinâmico (vLLM, Triton).

KV Cache Speculative Decoding

KV Cache

Cache de chaves/valores de atenção em transformers — evita recalcular tokens já processados. Essencial pra perf; cresce linearmente com context → bottleneck de memória em LLMs longos.

Inference

Learning Rate

Hiperparâmetro que controla o tamanho do passo em cada atualização de peso. Alto demais diverge, baixo demais estagna.

Gradient Descent

LLM (Large Language Model)

Modelo de linguagem com bilhões de parâmetros, pré-treinado em grandes corpora, capaz de gerar e compreender texto.

Transformer Token

LLM-as-Judge

Usar um LLM pra avaliar saídas de outro LLM. Armadilhas: position bias, verbosity bias, self-enhancement. Mitigação: random order, cross-family (GPT julga Claude), calibração humana.

RAG Evaluation

LoRA / QLoRA

Low-Rank Adaptation: fine-tuning que treina apenas matrizes low-rank plugadas ao modelo original — 99% menos parâmetros treinados, mesma qualidade. QLoRA adiciona quantization pra rodar em GPU menor.

Loss Function (Função de Custo)

Métrica numérica que quantifica o erro entre a previsão do modelo e o valor real. O treino minimiza essa função.

Backpropagation Gradient Descent

MCP (Model Context Protocol)

Protocolo aberto da Anthropic (2024) para conectar LLMs a fontes de dados/ferramentas externas de forma padronizada. Cliente-servidor, JSON-RPC. Desacopla modelo de integração.

Tool Use (Function Calling)Agent Harness

MoE (Mixture of Experts)

Arquitetura onde apenas um subset dos parâmetros (experts) é ativado por token — total grande, compute menor. Usado em Mixtral, DeepSeek-V3, GPT-4, Claude. Router decide qual expert.

LLM (Large Language Model)Inference

Overfitting

Quando o modelo decora o treino e perde capacidade de generalizar para dados novos.

Regularização (L1/L2)Dropout

Prompt Injection

Ataque onde input do usuário subverte instruções do system prompt. Indirect: atacante injeta via documento que o agent lê. Vetor crítico em agents com tool use em 2026.

Agents (LLM)Tool Use (Function Calling)

RAG (Retrieval-Augmented Generation)

Padrão que combina busca em base de conhecimento + geração do LLM para respostas fundamentadas.

Embedding Cosine Similarity

RAG Evaluation

Métricas para sistemas RAG: faithfulness (resposta baseada no contexto?), answer relevance, context precision/recall. Frameworks: ragas, TruLens. Diferente de eval de LLM puro.

RAG (Retrieval-Augmented Generation)LLM-as-Judge

Regularização (L1/L2)

Técnica que penaliza pesos grandes para evitar overfitting. L1 gera sparsity, L2 distribui pesos.

Overfitting Dropout

RLHF

Reinforcement Learning from Human Feedback: humanos ranqueiam saídas, reward model aprende, PPO ajusta LLM. Base de ChatGPT. Custoso; DPO surgiu como alternativa.

DPO (Direct Preference Optimization)

Self-Attention

Caso específico de attention onde queries, keys e values vêm da mesma sequência.

Attention (Mecanismo de Atenção)Transformer

SLI (Service Level Indicator)

Métrica real que mede a experiência do usuário (ex: percentual de requests com latência < 200ms).

SLO (Service Level Objective)

Meta interna de confiabilidade de um serviço (ex: "99,9% dos requests em < 200ms"). Mais restrito que SLA.

Error Budget SLI (Service Level Indicator)

Speculative Decoding

Técnica de inference: modelo pequeno gera rascunho de N tokens, modelo grande verifica em paralelo. Acelera 2-4× sem perder qualidade. Usado em Claude, GPT-4 2024+.

Inference KV Cache

Temperature

Parâmetro que controla aleatoriedade na geração. 0 = determinístico, 1+ = mais criativo/aleatório.

LLM (Large Language Model)Top-p (Nucleus Sampling)

Teorema CAP

Em sistema distribuído, é impossível garantir simultaneamente Consistency, Availability e Partition tolerance — escolha 2.

Token

Pedaço atômico de texto (subpalavra, palavra ou caractere) que o modelo processa. Um token ≈ ¾ de uma palavra em inglês.

Embedding BPE (Byte Pair Encoding)

Tool Use (Function Calling)

Capacidade do LLM de chamar ferramentas/APIs externas de forma estruturada: o modelo retorna JSON com "nome da tool + parâmetros", app executa e devolve resultado pro modelo. Base dos agents.

MCP (Model Context Protocol)Agents (LLM)

Top-p (Nucleus Sampling)

Estratégia de sampling que considera apenas tokens cuja probabilidade acumulada atinge p%. Top-p=0.9 ignora os 10% menos prováveis.

Temperature

Transformer

Arquitetura de rede neural baseada em attention (Vaswani et al., 2017). Base de todos os LLMs modernos.

Attention (Mecanismo de Atenção)Self-Attention

Vector Database

DB especializado em indexar embeddings e busca ANN. pgvector (Postgres ext), Pinecone (managed), Weaviate (hybrid), Qdrant (Rust-based), Milvus. Base de RAG.

RAG (Retrieval-Augmented Generation)ANN (Approximate Nearest Neighbors)Embedding

VPC (Virtual Private Cloud)

Rede virtual isolada na AWS onde você roda seus recursos. Define sub-redes, routing e segurança.