44 termos — IA, cloud, engenharia e sistemas distribuídos em PT-BR.
Infraestrutura ao redor do LLM que gerencia loop de decisão: system prompt, tool calls, permissões, context management, hooks. Claude Code é um harness; agent SDK permite criar harnesses customizados.
LLM em loop: recebe objetivo → decide tool call → executa → observa → itera até completar. Requer tool use, memória, permissões. Claude Code, AutoGPT, crewAI são exemplos.
Busca aproximada em vetores alta-dimensão: HNSW (grafos), IVF (clusters), LSH. Trade-off recall × latency × memória. Usado em todo vector DB.
Mecanismo que permite ao modelo pesar a importância relativa de cada token em relação a todos os outros na sequência.
Algoritmo que calcula o gradiente da loss em relação a cada peso da rede, propagando o erro da saída para a entrada.
Algoritmo de tokenização que funde iterativamente os pares de bytes mais frequentes até atingir o tamanho desejado de vocabulário.
Método da Anthropic: modelo se auto-critica seguindo princípios (a "constituição") antes de responder. Reduz conteúdo prejudicial sem humano anotando cada exemplo.
Quantidade máxima de tokens que um LLM pode processar numa única chamada (inclui prompt + resposta).
Medida de similaridade entre dois vetores baseada no ângulo entre eles (0 = ortogonais, 1 = idênticos).
Alternativa ao RLHF: otimiza diretamente com pares (preferida, rejeitada) sem reward model separado. Mais simples, resultados competitivos. Adoção rápida pós-paper 2023.
Técnica de regularização que desativa neurônios aleatoriamente durante o treino, forçando redundância.
Vetor numérico que representa o significado semântico de um texto, imagem ou dado estruturado num espaço contínuo.
Margem de erro tolerada por um SLO (ex: se SLO é 99,9%, o budget é 0,1% = 43,2 min/mês).
Dataset curado de referência usado pra avaliar consistentemente mudanças em prompts/modelos/arch. Deve ser stratified (easy/medium/hard), annotated, sem contamination com training data.
Otimizador que ajusta pesos na direção oposta ao gradiente da loss, iterativamente reduzindo o erro.
Serviço AWS que controla quem (identidade) pode fazer o quê (permissões) em quais recursos.
Propriedade onde executar uma operação N vezes produz o mesmo resultado que executá-la uma vez.
Rodar modelo já treinado pra gerar output. Bottleneck: memória (KV cache) + compute. Otimizações: quantization, speculative decoding, batching dinâmico (vLLM, Triton).
Cache de chaves/valores de atenção em transformers — evita recalcular tokens já processados. Essencial pra perf; cresce linearmente com context → bottleneck de memória em LLMs longos.
Hiperparâmetro que controla o tamanho do passo em cada atualização de peso. Alto demais diverge, baixo demais estagna.
Modelo de linguagem com bilhões de parâmetros, pré-treinado em grandes corpora, capaz de gerar e compreender texto.
Usar um LLM pra avaliar saídas de outro LLM. Armadilhas: position bias, verbosity bias, self-enhancement. Mitigação: random order, cross-family (GPT julga Claude), calibração humana.
Low-Rank Adaptation: fine-tuning que treina apenas matrizes low-rank plugadas ao modelo original — 99% menos parâmetros treinados, mesma qualidade. QLoRA adiciona quantization pra rodar em GPU menor.
Métrica numérica que quantifica o erro entre a previsão do modelo e o valor real. O treino minimiza essa função.
Protocolo aberto da Anthropic (2024) para conectar LLMs a fontes de dados/ferramentas externas de forma padronizada. Cliente-servidor, JSON-RPC. Desacopla modelo de integração.
Arquitetura onde apenas um subset dos parâmetros (experts) é ativado por token — total grande, compute menor. Usado em Mixtral, DeepSeek-V3, GPT-4, Claude. Router decide qual expert.
Quando o modelo decora o treino e perde capacidade de generalizar para dados novos.
Ataque onde input do usuário subverte instruções do system prompt. Indirect: atacante injeta via documento que o agent lê. Vetor crítico em agents com tool use em 2026.
Padrão que combina busca em base de conhecimento + geração do LLM para respostas fundamentadas.
Métricas para sistemas RAG: faithfulness (resposta baseada no contexto?), answer relevance, context precision/recall. Frameworks: ragas, TruLens. Diferente de eval de LLM puro.
Técnica que penaliza pesos grandes para evitar overfitting. L1 gera sparsity, L2 distribui pesos.
Reinforcement Learning from Human Feedback: humanos ranqueiam saídas, reward model aprende, PPO ajusta LLM. Base de ChatGPT. Custoso; DPO surgiu como alternativa.
Caso específico de attention onde queries, keys e values vêm da mesma sequência.
Métrica real que mede a experiência do usuário (ex: percentual de requests com latência < 200ms).
Meta interna de confiabilidade de um serviço (ex: "99,9% dos requests em < 200ms"). Mais restrito que SLA.
Técnica de inference: modelo pequeno gera rascunho de N tokens, modelo grande verifica em paralelo. Acelera 2-4× sem perder qualidade. Usado em Claude, GPT-4 2024+.
Parâmetro que controla aleatoriedade na geração. 0 = determinístico, 1+ = mais criativo/aleatório.
Em sistema distribuído, é impossível garantir simultaneamente Consistency, Availability e Partition tolerance — escolha 2.
Pedaço atômico de texto (subpalavra, palavra ou caractere) que o modelo processa. Um token ≈ ¾ de uma palavra em inglês.
Capacidade do LLM de chamar ferramentas/APIs externas de forma estruturada: o modelo retorna JSON com "nome da tool + parâmetros", app executa e devolve resultado pro modelo. Base dos agents.
Estratégia de sampling que considera apenas tokens cuja probabilidade acumulada atinge p%. Top-p=0.9 ignora os 10% menos prováveis.
Arquitetura de rede neural baseada em attention (Vaswani et al., 2017). Base de todos os LLMs modernos.
DB especializado em indexar embeddings e busca ANN. pgvector (Postgres ext), Pinecone (managed), Weaviate (hybrid), Qdrant (Rust-based), Milvus. Base de RAG.
Rede virtual isolada na AWS onde você roda seus recursos. Define sub-redes, routing e segurança.