Voice, Vision & Multimodal

Para quem já sabe o básico e quer ir fundo. Aqui o assunto é como os modelos funcionam em produção: memória, roteamento, ferramentas, agentes. O lado técnico que pouca gente explica direito.

7artigos

400XP total

🎭 Multimodal mental model: além do texto

Unified vs specialized: modelos que aceitam imagem+texto+audio (Gemini, GPT-4o, Claude 3.5) vs pipeline de modelos. Quando cada arquitetura. Custo por modalidade.

⏱ 11 min·+45 XP

→

🎤 Speech-to-text: Whisper e alternativas

Whisper (OpenAI, open source), Deepgram, AssemblyAI. Streaming vs batch. Language detection. Diarization (quem falou). Cost ($0.006/min Whisper API). Self-host Whisper em GPU.

⏱ 12 min·+50 XP

→

🔊 Text-to-speech: ElevenLabs, OpenAI, Cartesia

ElevenLabs (quality top, voice cloning), OpenAI TTS-1 (barato, rápido), Cartesia Sonic (streaming ultra-baixa latência <100ms), Play.ht. Voice cloning ética + consent.

⏱ 12 min·+50 XP

→

⚡ Realtime APIs: GPT-4o Realtime, conversational voice

GPT-4o Realtime API (voice native, < 500ms RTT), OpenAI Realtime, LiveKit + agents. Arquitetura WebRTC, turn-taking, interruption handling, VAD (voice activity detection).

⏱ 14 min·+60 XP

→

👁️ Vision models: Claude Vision, GPT-4V, Gemini

Image understanding: Claude 3.5 Sonnet vision, GPT-4V, Gemini 1.5 Pro. Use cases: doc extraction, UI understanding (Playwright + vision), diagrama parsing, chart-to-data.

⏱ 13 min·+55 XP

→

📄 OCR moderno: Azure Doc Intelligence, Textract, LandingAI

OCR legacy (Tesseract) vs moderno LLM-powered (Azure Doc Intelligence, AWS Textract, LandingAI Agentic OCR, Mistral OCR). Tabelas, forms, assinaturas. Quando cada.

⏱ 12 min·+50 XP

→

🏁 Capstone: assistente de voz end-to-end

Build voice assistant: Whisper STT + Claude/GPT-4o reasoning + ElevenLabs/Cartesia TTS, WebRTC streaming, VAD, tool use (set alarm, search web). Deploy em mobile + desktop.

⏱ 20 min·+90 XP

→

← Voltar à home