vLLM: despliega LLMs en producción (tutorial completo)

Por que vLLM

vLLM es el estandar de facto para servir LLMs en producción. Su ventaja: PagedAttention gestiona la memoria GPU como un SO gestiona la RAM. Más requests concurrentes con la misma GPU.

Instalacion con Docker

docker run --runtime nvidia --gpus all \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -p 8000:8000 \
  vllm/vllm-openai:latest \
  --model Qwen/Qwen3-8B \
  --max-model-len 8192

La API es identica a OpenAI. Cualquier código que use el SDK de OpenAI funciona sin cambios apuntando a http://localhost:8000/v1.

Docker Compose para producción

Stack completo: vLLM + Caddy (TLS automático) + Prometheus (metricas) + Grafana (dashboards). Todo en un docker-compose.yml.

Parámetros criticos: --gpu-memory-utilization 0.92, --enable-prefix-caching, --api-key, --disable-log-requests.

Multi-GPU con tensor parallelism

Para modelos que no caben en una GPU: --tensor-parallel-size 2 divide cada capa entre 2 GPUs. En Hetzner GEX44 (2x RTX 4090, 48GB total): corre Qwen3-27B en FP16 o Llama 70B en Q4.

Seguridad

Bind a 127.0.0.1 (no 0.0.0.0). Acceso solo via Caddy con TLS + API key. --disable-log-requests evita loguear datos de usuario. Firewall: solo 80/443 abiertos.

Monitoring

vLLM expone metricas Prometheus en /metrics. Alertas clave: num_requests_waiting > 10, gpu_cache_usage > 95%, gpu_temperature > 85C.

Costes

Hetzner GEX44: 180 EUR/mes. A partir de ~15K requests/mes con modelos premium, self-hosting sale más barato que APIs propietarias. Para compliance (ENS, NIS2): obligatorio independientemente del volumen.

Aprende más en IAcademy

Los 3 primeros módulos son gratis. Cubre desde prompting hasta agentes IA y deploy en producción.

Empieza gratis

Curso completo: 151 módulos de IA aplicada

13 especializaciones. Claude API, LangChain, Ollama, fine-tuning. Dashboard con progreso. Desde 399 EUR.

Ver precios Acceder al portal