Blog
Para quem já sabe o básico e quer ir fundo. Aqui o assunto é como os modelos funcionam em produção: memória, roteamento, ferramentas, agentes. O lado técnico que pouca gente explica direito.
Unified vs specialized: modelos que aceitam imagem+texto+audio (Gemini, GPT-4o, Claude 3.5) vs pipeline de modelos. Quando cada arquitetura. Custo por modalidade.
Whisper (OpenAI, open source), Deepgram, AssemblyAI. Streaming vs batch. Language detection. Diarization (quem falou). Cost ($0.006/min Whisper API). Self-host Whisper em GPU.
ElevenLabs (quality top, voice cloning), OpenAI TTS-1 (barato, rápido), Cartesia Sonic (streaming ultra-baixa latência <100ms), Play.ht. Voice cloning ética + consent.
GPT-4o Realtime API (voice native, < 500ms RTT), OpenAI Realtime, LiveKit + agents. Arquitetura WebRTC, turn-taking, interruption handling, VAD (voice activity detection).
Image understanding: Claude 3.5 Sonnet vision, GPT-4V, Gemini 1.5 Pro. Use cases: doc extraction, UI understanding (Playwright + vision), diagrama parsing, chart-to-data.
OCR legacy (Tesseract) vs moderno LLM-powered (Azure Doc Intelligence, AWS Textract, LandingAI Agentic OCR, Mistral OCR). Tabelas, forms, assinaturas. Quando cada.
Build voice assistant: Whisper STT + Claude/GPT-4o reasoning + ElevenLabs/Cartesia TTS, WebRTC streaming, VAD, tool use (set alarm, search web). Deploy em mobile + desktop.