MAESTRÍA

Módulo 26: Modelos open-source en producción

ACTUALIZADO Q3 2026

Modelos open-source en producción

No dependas de una API externa. Los modelos open-source (Qwen, Llama, Phi) son competitivos en calidad y te dan control total: sin rate limits, sin costes por token, sin enviar datos a terceros.

Punto clave

Self-hosted no significa peor. Qwen 2.5 32B compite con Sonnet en muchas tareas. La clave es elegir el modelo correcto para tu tarea y optimizar el inference.

Top modelos open-source (2026)

  • Qwen 2.5 32B: mejor relación calidad/tamaño, multilingüe, razonamiento sólido
  • Llama 3.1 70B: Meta, excelente en inglés, requiere más GPU
  • Phi-4 14B: Microsoft, sorprendentemente bueno para su tamaño, ideal para edge
  • Codestral 22B: Mistral, especializado en código

vLLM vs Ollama

# vLLM: producción, alto throughput, API OpenAI-compatible
docker run vllm/vllm-openai --model Qwen/Qwen2.5-32B-Instruct

# Ollama: desarrollo, fácil, Mac/Linux
ollama run qwen2.5:32b

vLLM para producción (concurrent requests, batching, GPU optimization). Ollama para desarrollo local (simple, rápido de instalar).

Benchmarks reales

Tarea: clasificación de tickets soporte (1000 tickets)
Qwen 32B (vLLM): 94.2% accuracy, 12 tok/s, 0 EUR/token
Sonnet 4.6 (API): 96.1% accuracy, 80 tok/s, $45
Haiku 4.5 (API):  91.8% accuracy, 120 tok/s, $12

→ Qwen gana en coste, Sonnet en calidad, Haiku en velocidad

Pon a prueba tus conocimientos

Quiz: modelos open-source, vLLM, Ollama, benchmarks.

Hacer quiz