Docker para proyectos de IA: guía práctica de deploy

Por qué Docker para IA

Docker resuelve el problema de "funciona en mi máquina": empaqueta tu app, dependencias, CUDA y modelos en un contenedor reproducible. Esencial para deploy de LLMs.

Docker + GPU (NVIDIA)

# Instalar NVIDIA Container Toolkit
sudo apt install -y nvidia-container-toolkit
sudo systemctl restart docker

# Verificar GPU disponible
docker run --gpus all nvidia/cuda:12.4.0-base-ubuntu22.04 nvidia-smi

Docker Compose para stack de IA

services:
  vllm:
    image: vllm/vllm-openai:latest
    runtime: nvidia
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    ports:
      - "127.0.0.1:8000:8000"
    command: --model Qwen/Qwen3-8B --max-model-len 8192

  ollama:
    image: ollama/ollama
    volumes:
      - ollama-data:/root/.ollama
    ports:
      - "11434:11434"

  caddy:
    image: caddy:2-alpine
    ports:
      - "443:443"
      - "80:80"
    volumes:
      - ./Caddyfile:/etc/caddy/Caddyfile

volumes:
  ollama-data:

Dockerfile para app FastAPI + LLM

FROM python:3.11-slim
WORKDIR /app
COPY requirements.txt .
RUN pip install --no-cache-dir -r requirements.txt
COPY . .
CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "8080"]

Patrones de producción

Health checks: verificar que vLLM responde antes de aceptar tráfico.

Volumes: persistir modelos descargados para no re-descargar en restart.

Restart policy: unless-stopped para auto-recovery.

Logging: centralizar logs con Docker logging drivers.

Aprende más en IAcademy

Los 3 primeros módulos son gratis. 151 módulos cubriendo Claude API, LangChain, Ollama, fine-tuning y más.

Empieza gratis

Curso completo: 151 módulos de IA aplicada

13 especializaciones. Claude API, LangChain, Ollama, fine-tuning. Dashboard con progreso. Desde 399 EUR.

Ver precios Acceder al portal