MAESTRÍA
Módulo 27: Voice AI y multimodal
ACTUALIZADO Q3 2026
Voice AI y multimodal: más allá del texto
La IA no es solo texto. Puede ver imágenes, generar audio, transcribir reuniones, y crear vídeos. El pipeline multimodal conecta entrada (voz, imagen, vídeo) con procesamiento (LLM) y salida (audio, texto, imagen).
Punto clave
TTS (text-to-speech) y STT (speech-to-text) son los más maduros. Vision está creciendo rápido. Vídeo generativo aún es experimental para producción.
Speech-to-Text (STT)
Transcripción de audio a texto. Whisper (OpenAI, open-source) es el estándar:
# Whisper local
pip install openai-whisper
whisper audio.mp3 --language es --model medium
Text-to-Speech (TTS)
- ElevenLabs: mejor calidad, API, voces clonadas. ~$5/100K caracteres
- Voxtral: open-source, es_male excelente para español
- Kokoro: ligero, prototipos rápidos
Vision: IA que ve
Modelos multimodales (GPT-4o, Claude Sonnet) pueden analizar imágenes:
- Extraer texto de facturas escaneadas
- Describir screenshots para testing
- Analizar gráficos y dashboards
- Clasificar imágenes de producto
Pipeline completo
Input: Audio reunión (WAV)
→ STT (Whisper): transcripción texto
→ LLM (Claude): resumen + action items
→ TTS (Voxtral): audio del resumen
→ Output: resumen leíble + audio descargable