MAESTRÍA

Módulo 27: Voice AI y multimodal

ACTUALIZADO Q3 2026

Voice AI y multimodal: más allá del texto

La IA no es solo texto. Puede ver imágenes, generar audio, transcribir reuniones, y crear vídeos. El pipeline multimodal conecta entrada (voz, imagen, vídeo) con procesamiento (LLM) y salida (audio, texto, imagen).

Punto clave

TTS (text-to-speech) y STT (speech-to-text) son los más maduros. Vision está creciendo rápido. Vídeo generativo aún es experimental para producción.

Speech-to-Text (STT)

Transcripción de audio a texto. Whisper (OpenAI, open-source) es el estándar:

# Whisper local
pip install openai-whisper
whisper audio.mp3 --language es --model medium

Text-to-Speech (TTS)

  • ElevenLabs: mejor calidad, API, voces clonadas. ~$5/100K caracteres
  • Voxtral: open-source, es_male excelente para español
  • Kokoro: ligero, prototipos rápidos

Vision: IA que ve

Modelos multimodales (GPT-4o, Claude Sonnet) pueden analizar imágenes:

  • Extraer texto de facturas escaneadas
  • Describir screenshots para testing
  • Analizar gráficos y dashboards
  • Clasificar imágenes de producto

Pipeline completo

Input: Audio reunión (WAV)
→ STT (Whisper): transcripción texto
→ LLM (Claude): resumen + action items
→ TTS (Voxtral): audio del resumen
→ Output: resumen leíble + audio descargable

Pon a prueba tus conocimientos

Quiz: STT, TTS, vision, pipeline multimodal.

Hacer quiz