MAESTRÍA
Módulo 26: Modelos open-source en producción
ACTUALIZADO Q3 2026
Modelos open-source en producción
No dependas de una API externa. Los modelos open-source (Qwen, Llama, Phi) son competitivos en calidad y te dan control total: sin rate limits, sin costes por token, sin enviar datos a terceros.
Punto clave
Self-hosted no significa peor. Qwen 2.5 32B compite con Sonnet en muchas tareas. La clave es elegir el modelo correcto para tu tarea y optimizar el inference.
Top modelos open-source (2026)
- Qwen 2.5 32B: mejor relación calidad/tamaño, multilingüe, razonamiento sólido
- Llama 3.1 70B: Meta, excelente en inglés, requiere más GPU
- Phi-4 14B: Microsoft, sorprendentemente bueno para su tamaño, ideal para edge
- Codestral 22B: Mistral, especializado en código
vLLM vs Ollama
# vLLM: producción, alto throughput, API OpenAI-compatible
docker run vllm/vllm-openai --model Qwen/Qwen2.5-32B-Instruct
# Ollama: desarrollo, fácil, Mac/Linux
ollama run qwen2.5:32b
vLLM para producción (concurrent requests, batching, GPU optimization). Ollama para desarrollo local (simple, rápido de instalar).
Benchmarks reales
Tarea: clasificación de tickets soporte (1000 tickets)
Qwen 32B (vLLM): 94.2% accuracy, 12 tok/s, 0 EUR/token
Sonnet 4.6 (API): 96.1% accuracy, 80 tok/s, $45
Haiku 4.5 (API): 91.8% accuracy, 120 tok/s, $12
→ Qwen gana en coste, Sonnet en calidad, Haiku en velocidad