Agent observability: LangSmith, Helicone, Phoenix Arize

Você não pode debugar o que não vê. Multi-agent + tool use + reasoning models + RAG geram cascatas de chamadas LLM com latências, custos e modos de falha que stack tradicional (APM, logs) não captura. Em 2026, observability LLM tem 4 jogadores principais: LangSmith (LangChain-native), Helicone (proxy agnóstico), Phoenix (OTel + RAG-focused), Langfuse (open-source full-stack). Este módulo compara cada um e mostra setups práticos.

O que precisa ser observado num agente

Traces hierárquicosCada call LLM, tool, sub-agent vira span aninhado — visualiza árvore de execução

Latência por nívelP50/P95/P99 por nó, por tool, por modelo — identifica gargalos

Custo por traceTokens × preço, agregado por user/feature/version — controla burn rate

Errors estruturadasTool failures, parse errors, max_iterations, rate limits — não logs ASCII soltos

Prompt versioningQue prompt rodou quando, com que parâmetros — compara A vs B

Dataset captureRuns reais → eval datasets → CI regression

Online evals (LLM-as-judge)Score automático de runs em prod para detectar degradação

PII filteringCaptura sem armazenar dados sensíveis — LGPD/GDPR compliance

LangSmith — integrado ao LangChain

langsmith_setup.py

# Setup: variáveis de ambiente + uso automático
import os
os.environ["LANGCHAIN_TRACING_V2"] = "true"
os.environ["LANGCHAIN_API_KEY"] = "lsv2_..."
os.environ["LANGCHAIN_PROJECT"] = "ffv-agente-prod"

from langchain_anthropic import ChatAnthropic
from langgraph.graph import StateGraph

# Toda call LLM e nó LangGraph é tracked automaticamente
llm = ChatAnthropic(model="claude-sonnet-4-7")
response = llm.invoke("Olá")
# → aparece em smith.langchain.com com latência, tokens, custo, prompt, response

# Decorators para custom code
from langsmith import traceable

@traceable(name="custom-retrieval", run_type="retriever")
def my_retrieval(query: str) -> list[str]:
    # Sua lógica de retrieval — vira span filho do trace pai
    return search_db(query)

# Prompt versioning via Hub
from langchain import hub
prompt = hub.pull("my-team/research-agent:v3")  # versão pinada
response = llm.invoke(prompt.format(question="..."))

Helicone — proxy agnóstico

helicone_setup.py

# Setup: muda base_url para Helicone — não exige callbacks/framework
import openai
import anthropic

# OpenAI via Helicone
openai_client = openai.OpenAI(
    base_url="https://oai.helicone.ai/v1",
    default_headers={
        "Helicone-Auth": f"Bearer {os.environ['HELICONE_API_KEY']}",
        "Helicone-User-Id": "user-42",
        "Helicone-Property-Feature": "research",      # custom properties
    },
)

# Anthropic via Helicone
anthropic_client = anthropic.Anthropic(
    base_url="https://anthropic.helicone.ai",
    default_headers={
        "Helicone-Auth": f"Bearer {os.environ['HELICONE_API_KEY']}",
        "Helicone-Cache-Enabled": "true",             # cache built-in
        "Helicone-Rate-Limit-Policy": "1000;w=60",    # 1000 req/min
    },
)

# Toda call passa pelo proxy — captura automática + features extras:
# - Cache de responses repetidos
# - Rate limiting per user
# - Cost tracking per property
# - Prompt management via Helicone Prompts

💡

O fato de ser proxy traz feature exclusiva: cache de response (configurável por header). Identidade de prompt repetido = mesma resposta retornada sem chamar o provider. Reduz drasticamente custos em apps com prompts cacheáveis.

Phoenix (Arize) — OTel-native + RAG

phoenix_setup.py

# Phoenix self-host (Docker) + auto-instrumentation via openinference
import phoenix as px
from phoenix.otel import register
from openinference.instrumentation.openai import OpenAIInstrumentor
from openinference.instrumentation.langchain import LangChainInstrumentor

# Inicia UI local ou aponta para servidor remoto
px.launch_app()  # http://localhost:6006

# Configura tracer OTel — exports para Phoenix ou qualquer OTel backend
tracer_provider = register(
    project_name="ffv-agente",
    endpoint="http://localhost:6006/v1/traces",
)

# Auto-instrument SDKs
OpenAIInstrumentor().instrument(tracer_provider=tracer_provider)
LangChainInstrumentor().instrument(tracer_provider=tracer_provider)

# Specialty: embedding visualizations
# Phoenix mostra UMAP/t-SNE de embeddings, detecta drift entre prod/eval datasets
# Ideal para RAG observability — visualiza queries que retornam docs irrelevantes

Langfuse — open-source full stack

langfuse_setup.py

from langfuse import Langfuse
from langfuse.decorators import observe

langfuse = Langfuse(
    public_key=os.environ["LANGFUSE_PUBLIC_KEY"],
    secret_key=os.environ["LANGFUSE_SECRET_KEY"],
    host="https://cloud.langfuse.com",   # ou self-host
)

@observe()
def research_agent(query: str) -> str:
    # Trace é criado automaticamente — child spans capturam calls LLM internas
    prompt = langfuse.get_prompt("research-system", version=3)
    messages = [{"role": "system", "content": prompt.compile()}]
    messages.append({"role": "user", "content": query})

    response = anthropic_client.messages.create(
        model="claude-sonnet-4-7",
        messages=messages,
        max_tokens=2000,
    )

    # Captura score (eval feedback ou LLM-as-judge)
    langfuse.score(
        trace_id=langfuse.get_current_trace_id(),
        name="relevance",
        value=0.85,
        comment="LLM-as-judge: relevância da resposta",
    )

    return response.content[0].text

Comparativo direto

Feature	LangSmith	Helicone	Phoenix	Langfuse
Modelo	SDK callback	HTTP proxy	OTel SDK	SDK + decorators
Framework-agnostic	Limitado	✅ Total	✅ OTel	✅ Total
Self-hostable	⚠️ Enterprise	⚠️ Enterprise	✅	✅
Open-source	❌	⚠️ Parcial	✅	✅
Prompt versioning	✅ (Hub)	✅	⚠️	✅
Dataset capture	✅	✅	✅	✅
LLM-as-judge	✅	⚠️	✅	✅
Cache built-in	❌	✅ (proxy)	❌	❌
Sweet spot	LangChain stacks	Multi-framework, cache	OTel-native, RAG	OSS full-stack

FeatureModelo

LangSmithSDK callback

HeliconeHTTP proxy

PhoenixOTel SDK

LangfuseSDK + decorators

FeatureFramework-agnostic

LangSmithLimitado

Helicone✅ Total

Phoenix✅ OTel

Langfuse✅ Total

FeatureSelf-hostable

LangSmith⚠️ Enterprise

Helicone⚠️ Enterprise

Phoenix✅

Langfuse✅

FeatureOpen-source

LangSmith❌

Helicone⚠️ Parcial

Phoenix✅

Langfuse✅

FeaturePrompt versioning

LangSmith✅ (Hub)

Helicone✅

Phoenix⚠️

Langfuse✅

FeatureDataset capture

LangSmith✅

Helicone✅

Phoenix✅

Langfuse✅

FeatureLLM-as-judge

LangSmith✅

Helicone⚠️

Phoenix✅

Langfuse✅

FeatureCache built-in

LangSmith❌

Helicone✅ (proxy)

Phoenix❌

Langfuse❌

FeatureSweet spot

LangSmithLangChain stacks

HeliconeMulti-framework, cache

PhoenixOTel-native, RAG

LangfuseOSS full-stack

Arquitetura: como capturas hierárquicos funcionam

🗺️ Anatomia de um trace de agente multi-step

Trace ID — sessão completa

Início ao fim da request

Metadata: user, version, feature

Supervisor span (parent)

↳ Worker A span

↳ Tool call span

↳ LLM call span

↳ Worker B span

↳ LLM call span

Input/output JSON

Latency ms

Token usage + cost

Errors + stack traces

Custom metadata

P50/P95/P99 por feature

Cost per user/day

Error rate per tool

Token volume trends

Eval scores rolling

Decisão prática

📋 Time de 5 devs usa LangChain + LangGraph + Anthropic + alguns scripts Python diretos com OpenAI.

✓ LangSmith (primário) + considere Langfuse OSS

Time é LangChain-first: LangSmith integra zero-config nos casos centrais. Para os scripts ad-hoc com OpenAI direto, decorators @traceable capturam. Se time quer evitar lock-in ou self-host, Langfuse OSS cobre 90% das features com instrumentation similar.

Alt: Helicone —

Alt: Phoenix —

Alt: Langfuse OSS —

🗺️ Árvore de decisão

Stack é LangChain/LangGraph?Sim → LangSmith é zero-config

Self-host é obrigatório?Sim → Phoenix ou Langfuse OSS

Multi-framework + quer cache?Helicone (proxy)

Já tem OTel collector?Phoenix integra nativamente

Default 2026Langfuse OSS — features full-stack, agnóstico

Timeline

Jul 2023

LangSmith beta

LangChain — primeiro observability SaaS para LLMs

Set 2023

Helicone GA

YC W23 — proxy approach

Out 2023

Langfuse v1

Open-source MIT, full-stack OSS

Jan 2024

Arize Phoenix

OTel-native, foco em RAG/embeddings

Mai 2024

OpenLLMetry standard

OTel semantic conventions para LLM workloads

Set 2024

OpenInference

Arize publica semantics conventions LLM-specific

2025

LangSmith Enterprise self-host

LangChain entra em prod compliance-heavy

2026

Padrão OTel consolidado

Maioria das plataformas exporta OTel; vendor-neutral é default

Perguntas frequentes

❓ Posso usar 2 ferramentas ao mesmo tempo?

Sim — comum em times grandes. Exemplo: LangSmith para dev (rich semantics), Phoenix para SRE (OTel native + dashboards Grafana). Custo: overhead negligível, complexidade de manutenção real.

❓ LGPD/GDPR: como tratar PII em traces?

Todas as ferramentas suportam filtros: regex de remoção (CPF, email, telefone), denylist de keys de input/output, self-host on-prem. Em prod, sempre filtrar antes de enviar; auditar amostras. Anthropic Bedrock também suporta logging filtering server-side.

❓ Latência adicionada?

Helicone (proxy): +10–50ms por call (latência de rede extra). LangSmith/Langfuse/Phoenix (SDK): +1–5ms por span, async (não bloqueia request). Negligível em prod tipicamente.

❓ Custo?

LangSmith SaaS: $0.0005/trace + tiers. Helicone: free até 100k req/month. Langfuse Cloud: free até 50k events/month. Self-host: só infra. Volume alto (1M+ requests/month) → considere self-host (Langfuse/Phoenix) por custo.

Referências

LangSmithsmith.langchain.com — docs: docs.smith.langchain.com

Heliconehelicone.ai — docs: docs.helicone.ai

Phoenix (Arize)github.com/Arize-ai/phoenix — docs.arize.com/phoenix

Langfuselangfuse.com — github.com/langfuse/langfuse (MIT)

OpenInferencegithub.com/Arize-ai/openinference — OTel semantic conventions para LLM

OpenLLMetrygithub.com/traceloop/openllmetry — OTel para LLM stack

Dapper paperSigelman et al. "Dapper, a Large-Scale Distributed Systems Tracing Infrastructure". Google 2010 — origem de distributed tracing

O que precisa ser observado num agente

Traces hierárquicosCada call LLM, tool, sub-agent vira span aninhado — visualiza árvore de execução

Latência por nívelP50/P95/P99 por nó, por tool, por modelo — identifica gargalos

Custo por traceTokens × preço, agregado por user/feature/version — controla burn rate

Errors estruturadasTool failures, parse errors, max_iterations, rate limits — não logs ASCII soltos

Prompt versioningQue prompt rodou quando, com que parâmetros — compara A vs B

Dataset captureRuns reais → eval datasets → CI regression

Online evals (LLM-as-judge)Score automático de runs em prod para detectar degradação

PII filteringCaptura sem armazenar dados sensíveis — LGPD/GDPR compliance

LangSmith — integrado ao LangChain

langsmith_setup.py

# Setup: variáveis de ambiente + uso automático
import os
os.environ["LANGCHAIN_TRACING_V2"] = "true"
os.environ["LANGCHAIN_API_KEY"] = "lsv2_..."
os.environ["LANGCHAIN_PROJECT"] = "ffv-agente-prod"

from langchain_anthropic import ChatAnthropic
from langgraph.graph import StateGraph

# Toda call LLM e nó LangGraph é tracked automaticamente
llm = ChatAnthropic(model="claude-sonnet-4-7")
response = llm.invoke("Olá")
# → aparece em smith.langchain.com com latência, tokens, custo, prompt, response

# Decorators para custom code
from langsmith import traceable

@traceable(name="custom-retrieval", run_type="retriever")
def my_retrieval(query: str) -> list[str]:
    # Sua lógica de retrieval — vira span filho do trace pai
    return search_db(query)

# Prompt versioning via Hub
from langchain import hub
prompt = hub.pull("my-team/research-agent:v3")  # versão pinada
response = llm.invoke(prompt.format(question="..."))

Helicone — proxy agnóstico

helicone_setup.py

# Setup: muda base_url para Helicone — não exige callbacks/framework
import openai
import anthropic

# OpenAI via Helicone
openai_client = openai.OpenAI(
    base_url="https://oai.helicone.ai/v1",
    default_headers={
        "Helicone-Auth": f"Bearer {os.environ['HELICONE_API_KEY']}",
        "Helicone-User-Id": "user-42",
        "Helicone-Property-Feature": "research",      # custom properties
    },
)

# Anthropic via Helicone
anthropic_client = anthropic.Anthropic(
    base_url="https://anthropic.helicone.ai",
    default_headers={
        "Helicone-Auth": f"Bearer {os.environ['HELICONE_API_KEY']}",
        "Helicone-Cache-Enabled": "true",             # cache built-in
        "Helicone-Rate-Limit-Policy": "1000;w=60",    # 1000 req/min
    },
)

# Toda call passa pelo proxy — captura automática + features extras:
# - Cache de responses repetidos
# - Rate limiting per user
# - Cost tracking per property
# - Prompt management via Helicone Prompts

💡

Phoenix (Arize) — OTel-native + RAG

phoenix_setup.py

# Phoenix self-host (Docker) + auto-instrumentation via openinference
import phoenix as px
from phoenix.otel import register
from openinference.instrumentation.openai import OpenAIInstrumentor
from openinference.instrumentation.langchain import LangChainInstrumentor

# Inicia UI local ou aponta para servidor remoto
px.launch_app()  # http://localhost:6006

# Configura tracer OTel — exports para Phoenix ou qualquer OTel backend
tracer_provider = register(
    project_name="ffv-agente",
    endpoint="http://localhost:6006/v1/traces",
)

# Auto-instrument SDKs
OpenAIInstrumentor().instrument(tracer_provider=tracer_provider)
LangChainInstrumentor().instrument(tracer_provider=tracer_provider)

# Specialty: embedding visualizations
# Phoenix mostra UMAP/t-SNE de embeddings, detecta drift entre prod/eval datasets
# Ideal para RAG observability — visualiza queries que retornam docs irrelevantes

Langfuse — open-source full stack

langfuse_setup.py

from langfuse import Langfuse
from langfuse.decorators import observe

langfuse = Langfuse(
    public_key=os.environ["LANGFUSE_PUBLIC_KEY"],
    secret_key=os.environ["LANGFUSE_SECRET_KEY"],
    host="https://cloud.langfuse.com",   # ou self-host
)

@observe()
def research_agent(query: str) -> str:
    # Trace é criado automaticamente — child spans capturam calls LLM internas
    prompt = langfuse.get_prompt("research-system", version=3)
    messages = [{"role": "system", "content": prompt.compile()}]
    messages.append({"role": "user", "content": query})

    response = anthropic_client.messages.create(
        model="claude-sonnet-4-7",
        messages=messages,
        max_tokens=2000,
    )

    # Captura score (eval feedback ou LLM-as-judge)
    langfuse.score(
        trace_id=langfuse.get_current_trace_id(),
        name="relevance",
        value=0.85,
        comment="LLM-as-judge: relevância da resposta",
    )

    return response.content[0].text

Comparativo direto

Feature	LangSmith	Helicone	Phoenix	Langfuse
Modelo	SDK callback	HTTP proxy	OTel SDK	SDK + decorators
Framework-agnostic	Limitado	✅ Total	✅ OTel	✅ Total
Self-hostable	⚠️ Enterprise	⚠️ Enterprise	✅	✅
Open-source	❌	⚠️ Parcial	✅	✅
Prompt versioning	✅ (Hub)	✅	⚠️	✅
Dataset capture	✅	✅	✅	✅
LLM-as-judge	✅	⚠️	✅	✅
Cache built-in	❌	✅ (proxy)	❌	❌
Sweet spot	LangChain stacks	Multi-framework, cache	OTel-native, RAG	OSS full-stack

FeatureModelo

LangSmithSDK callback

HeliconeHTTP proxy

PhoenixOTel SDK

LangfuseSDK + decorators

FeatureFramework-agnostic

LangSmithLimitado

Helicone✅ Total

Phoenix✅ OTel

Langfuse✅ Total

FeatureSelf-hostable

LangSmith⚠️ Enterprise

Helicone⚠️ Enterprise

Phoenix✅

Langfuse✅

FeatureOpen-source

LangSmith❌

Helicone⚠️ Parcial

Phoenix✅

Langfuse✅

FeaturePrompt versioning

LangSmith✅ (Hub)

Helicone✅

Phoenix⚠️

Langfuse✅

FeatureDataset capture

LangSmith✅

Helicone✅

Phoenix✅

Langfuse✅

FeatureLLM-as-judge

LangSmith✅

Helicone⚠️

Phoenix✅

Langfuse✅

FeatureCache built-in

LangSmith❌

Helicone✅ (proxy)

Phoenix❌

Langfuse❌

FeatureSweet spot

LangSmithLangChain stacks

HeliconeMulti-framework, cache

PhoenixOTel-native, RAG

LangfuseOSS full-stack

Arquitetura: como capturas hierárquicos funcionam

🗺️ Anatomia de um trace de agente multi-step

Trace ID — sessão completa

Início ao fim da request

Metadata: user, version, feature

Supervisor span (parent)

↳ Worker A span

↳ Tool call span

↳ LLM call span

↳ Worker B span

↳ LLM call span

Input/output JSON

Latency ms

Token usage + cost

Errors + stack traces

Custom metadata

P50/P95/P99 por feature

Cost per user/day

Error rate per tool

Token volume trends

Eval scores rolling

Decisão prática

📋 Time de 5 devs usa LangChain + LangGraph + Anthropic + alguns scripts Python diretos com OpenAI.

✓ LangSmith (primário) + considere Langfuse OSS

Alt: Helicone —

Alt: Phoenix —

Alt: Langfuse OSS —

🗺️ Árvore de decisão

Stack é LangChain/LangGraph?Sim → LangSmith é zero-config

Self-host é obrigatório?Sim → Phoenix ou Langfuse OSS

Multi-framework + quer cache?Helicone (proxy)

Já tem OTel collector?Phoenix integra nativamente

Default 2026Langfuse OSS — features full-stack, agnóstico

Timeline

Jul 2023

LangSmith beta

LangChain — primeiro observability SaaS para LLMs

Set 2023

Helicone GA

YC W23 — proxy approach

Out 2023

Langfuse v1

Open-source MIT, full-stack OSS

Jan 2024

Arize Phoenix

OTel-native, foco em RAG/embeddings

Mai 2024

OpenLLMetry standard

OTel semantic conventions para LLM workloads

Set 2024

OpenInference

Arize publica semantics conventions LLM-specific

2025

LangSmith Enterprise self-host

LangChain entra em prod compliance-heavy

2026

Padrão OTel consolidado

Maioria das plataformas exporta OTel; vendor-neutral é default

Perguntas frequentes

❓ Posso usar 2 ferramentas ao mesmo tempo?

Sim — comum em times grandes. Exemplo: LangSmith para dev (rich semantics), Phoenix para SRE (OTel native + dashboards Grafana). Custo: overhead negligível, complexidade de manutenção real.

❓ LGPD/GDPR: como tratar PII em traces?

❓ Latência adicionada?

Helicone (proxy): +10–50ms por call (latência de rede extra). LangSmith/Langfuse/Phoenix (SDK): +1–5ms por span, async (não bloqueia request). Negligível em prod tipicamente.

❓ Custo?

Referências

LangSmithsmith.langchain.com — docs: docs.smith.langchain.com

Heliconehelicone.ai — docs: docs.helicone.ai

Phoenix (Arize)github.com/Arize-ai/phoenix — docs.arize.com/phoenix

Langfuselangfuse.com — github.com/langfuse/langfuse (MIT)

OpenInferencegithub.com/Arize-ai/openinference — OTel semantic conventions para LLM

OpenLLMetrygithub.com/traceloop/openllmetry — OTel para LLM stack

Dapper paperSigelman et al. "Dapper, a Large-Scale Distributed Systems Tracing Infrastructure". Google 2010 — origem de distributed tracing

O que precisa ser observado num agente

LangSmith — integrado ao LangChain

Helicone — proxy agnóstico

Phoenix (Arize) — OTel-native + RAG

Langfuse — open-source full stack

Comparativo direto

Arquitetura: como capturas hierárquicos funcionam

Decisão prática

Timeline

Perguntas frequentes

Referências

Próximos passos sugeridos

Discussão

Agent observability: LangSmith, Helicone, Phoenix Arize

O que precisa ser observado num agente

LangSmith — integrado ao LangChain

Helicone — proxy agnóstico

Phoenix (Arize) — OTel-native + RAG

Langfuse — open-source full stack

Comparativo direto

Arquitetura: como capturas hierárquicos funcionam

Decisão prática

Timeline

Perguntas frequentes

Referências

Próximos passos sugeridos

Discussão