Cómo usar Qwen 3.5 en local y en producción (2026)

Por David Moya · · 17 min lectura

como-usar-qwen

En este artículo

  1. Por qué Qwen 3.5
  2. Tamaños disponibles: de 0.5B a 72B
  3. Instalación con Ollama (desarrollo)
  4. vLLM para producción
  5. Cuantización: calidad vs velocidad
  6. API compatible OpenAI
  7. Qwen en español: casos de uso reales
  8. Benchmarks reales
  9. Errores comunes
  10. Preguntas frecuentes
Experiencia del equipo: Usamos Qwen 3.5 27B como modelo principal en producción, desplegado con vLLM en un servidor Hetzner con GPU. También usamos el 7B para desarrollo local con Ollama. Hemos evaluado cada tamaño en tareas reales: generación de informes GRC, análisis de amenazas CTI, procesamiento de actas y soporte al cliente.
Guía principal: Este artículo forma parte de la IA aplicada.

Qwen 3.5 es, en junio de 2026, el modelo open-weight más equilibrado para uso profesional. Desarrollado por Alibaba Cloud, supera a Llama 3.3 en la mayoría de benchmarks, tiene licencia Apache 2.0 (uso comercial sin restricciones) y ofrece tamaños desde 0.5B hasta 72B parámetros. Se ejecuta en Ollama, vLLM, llama.cpp y prácticamente cualquier runtime de inferencia.

La razón por la que recomendamos Qwen sobre otras alternativas es simple: mejor rendimiento en español, licencia permisiva y el rango de tamaños más completo del mercado. El 27B, en particular, es el sweet spot donde la calidad se acerca a las APIs comerciales sin necesitar hardware extremo.

Resumen rápido

Qwen 3.5: modelo open-weight de Alibaba. Apache 2.0. Tamaños de 0.5B a 72B. 27B es el sweet spot para producción. Instalación: ollama pull qwen3.5:7b. Producción: vLLM con API compatible OpenAI. Mejor que Llama 3.3 en español.

Por qué Qwen 3.5

El mercado de modelos open-weight en 2026 tiene varios contendientes: Llama 3.3 (Meta), Gemma 3 (Google), Phi-4 (Microsoft), Mistral (Mistral AI) y Qwen 3.5 (Alibaba). Qwen 3.5 destaca por tres razones.

1. Rendimiento multi-idioma. Qwen fue entrenado con un dataset que incluye una proporción significativa de texto en chino, español, francés, alemán, portugués y otros idiomas. Esto se traduce en mejor calidad de generación en español comparado con Llama (predominantemente inglés) y Gemma (inglés + pocos idiomas).

2. Rango de tamaños. Ningún otro proveedor ofrece modelos de 0.5B, 1.5B, 3B, 7B, 14B, 27B, 32B y 72B bajo la misma familia. Esto permite escalar la solución según el hardware y el caso de uso, manteniendo la misma interfaz y formato de prompts.

3. Licencia Apache 2.0. A diferencia de Llama (que tiene restricciones para empresas con más de 700 millones de usuarios activos mensuales) y algunos modelos de Mistral (licencia comercial separada), Qwen 3.5 es Apache 2.0 puro. Uso comercial sin condiciones.

Tamaños disponibles: de 0.5B a 72B

Cada tamaño tiene su caso de uso óptimo. No siempre más grande es mejor. Un modelo de 7B que responde en 1 segundo es mejor que uno de 27B que tarda 10 segundos para una tarea de clasificación binaria.

0.5B y 1.5B (nano). Para tareas de clasificación simple, extracción de entidades y formateo. Se ejecutan en cualquier hardware, incluso en Raspberry Pi. Velocidad: 50-100 tok/s en CPU. Caso de uso: clasificar emails como urgente/no urgente, extraer nombres y fechas de documentos.

3B y 7B (pequeño). El 7B es el caballo de batalla para desarrollo local. Buen equilibrio entre calidad y velocidad. Se ejecuta en portátiles con 16 GB de RAM. Caso de uso: chat general, resumen de documentos, traducción, generación de emails, análisis básico de datos.

14B (mediano). Salto de calidad notable respecto al 7B, especialmente en razonamiento y seguimiento de instrucciones complejas. Necesita 32 GB de RAM o GPU con 12 GB+ de VRAM. Caso de uso: cuando el 7B no sigue las instrucciones con suficiente precisión.

27B (sweet spot de producción). El 27B es nuestro modelo principal en producción. Calidad cercana a GPT-4o-mini en la mayoría de tareas. Se ejecuta en un servidor con GPU de 24 GB (NVIDIA RTX 4090, A5000 o similar). Con cuantización Q4, cabe en 16 GB de VRAM. Caso de uso: producción real donde los datos no pueden salir de la infraestructura propia.

32B y 72B (grande). Para cuando necesitas la máxima calidad y tienes el hardware. El 72B necesita 48 GB+ de VRAM (A100 o similar). Caso de uso: análisis legal complejo, generación de código avanzada, razonamiento científico.

Instalación con Ollama (desarrollo)

Para desarrollo local y pruebas, Ollama es la forma más rápida de usar Qwen. Si aún no tienes Ollama, consulta nuestra guía de instalación de Ollama.

# Descargar el modelo
ollama pull qwen3.5:7b

# Ejecutar chat interactivo
ollama run qwen3.5:7b

# Otros tamaños disponibles
ollama pull qwen3.5:0.5b
ollama pull qwen3.5:1.5b
ollama pull qwen3.5:3b
ollama pull qwen3.5:14b
ollama pull qwen3.5:27b
ollama pull qwen3.5:32b
ollama pull qwen3.5:72b

Modelfile personalizado. Puedes crear un Modelfile para ajustar el comportamiento del modelo (system prompt, temperatura, parámetros de muestreo):

# Archivo: Modelfile
FROM qwen3.5:7b

SYSTEM """Eres un asistente profesional especializado en
administración de empresas en España. Respondes siempre
en español, de forma concisa y práctica."""

PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 8192
# Crear el modelo personalizado
ollama create mi-asistente -f Modelfile

# Ejecutar
ollama run mi-asistente

vLLM para producción

Ollama es para desarrollo. Para producción con múltiples usuarios concurrentes y máximo rendimiento, vLLM es el estándar.

vLLM es un runtime de inferencia optimizado que implementa PagedAttention, batching continuo y paralelismo de tensores. En la práctica: sirve 3-5x más peticiones por segundo que Ollama con el mismo hardware.

# Instalar vLLM
pip install vllm

# Lanzar servidor con API compatible OpenAI
vllm serve Qwen/Qwen3.5-27B-Instruct \
  --host 0.0.0.0 \
  --port 8000 \
  --max-model-len 8192 \
  --tensor-parallel-size 1 \
  --gpu-memory-utilization 0.9

El servidor expone una API idéntica a la de OpenAI en http://tu-servidor:8000/v1/chat/completions. Cualquier cliente compatible con OpenAI funciona sin cambios.

Despliegue con Docker:

docker run --gpus all \
  -p 8000:8000 \
  vllm/vllm-openai:latest \
  --model Qwen/Qwen3.5-27B-Instruct \
  --max-model-len 8192

Hardware recomendado para producción. Para Qwen 3.5 27B con vLLM, un servidor Hetzner GEX44 (GPU dedicada, ~200 EUR/mes) es suficiente para 5-10 peticiones concurrentes. Para más carga, escala horizontalmente con múltiples instancias detrás de un load balancer.

Cuantización: calidad vs velocidad

La cuantización reduce el tamaño del modelo comprimiendo los pesos de FP16 (16 bits) a formatos más pequeños. Esto permite ejecutar modelos más grandes en menos hardware, a costa de una ligera pérdida de calidad.

Formatos de cuantización (de mayor a menor calidad):

Nuestra recomendación. Q4_K_M es el default de Ollama y funciona bien para el 90% de los casos. Si notas que el modelo pierde calidad en tareas específicas (razonamiento matemático, seguimiento de instrucciones complejas), sube a Q6_K o Q8.

API compatible OpenAI

Tanto Ollama como vLLM exponen una API compatible con OpenAI. Esto significa que puedes usar el SDK oficial de OpenAI, LangChain, LlamaIndex y cualquier herramienta que soporte "OpenAI-compatible endpoints".

from openai import OpenAI

# Ollama
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")

# vLLM
client = OpenAI(base_url="http://tu-servidor:8000/v1", api_key="token")

response = client.chat.completions.create(
    model="qwen3.5:27b",
    messages=[
        {"role": "system", "content": "Eres un experto en normativa española."},
        {"role": "user", "content": "Explica los requisitos de NIS2 para PYMEs."}
    ],
    temperature=0.3,
    max_tokens=2000
)
print(response.choices[0].message.content)

El cambio entre APIs de OpenAI, Anthropic y Qwen local se reduce a cambiar base_url y model. El código del cliente no cambia. Esto permite mantener Qwen para datos sensibles (en infraestructura propia) y APIs externas para datos no sensibles, con el mismo código.

Qwen en español: casos de uso reales

Hemos probado Qwen 3.5 27B en las siguientes tareas en español con resultados de producción:

Generación de informes GRC. A partir de una matriz de controles y evidencias, Qwen genera informes de gap analysis con lenguaje formal, estructura coherente y referencias normativas correctas (ENS, NIS2, ISO 27001). Precisión en mapeo normativo: 85-90% en primer borrador.

Análisis de amenazas CTI. Procesamiento de feeds de inteligencia, correlación de IOCs y generación de informes de amenazas. El modelo identifica correctamente tipos de malware, Tácticas MITRE ATT&CK y genera recomendaciones de mitigación.

Actas de reuniones. Genera actas formales en formato LPH a partir de transcripciones. Buen manejo de vocabulario jurídico en español. Las votaciones y cifras requieren revisión humana.

Atención al cliente. Chatbot con conocimiento de producto. Respuestas naturales en español, sin anglicismos. Manejo correcto de tono formal/informal según el contexto.

Resumen de documentos legales. Contratos, pliegos de condiciones, normativas. Qwen extrae cláusulas clave, identifica obligaciones y genera resúmenes ejecutivos. Para documentos de más de 10.000 tokens, la ventana de contexto del 27B (128K tokens) es más que suficiente.

Benchmarks reales

Los benchmarks académicos (MMLU, HumanEval, GSM8K) son útiles para comparar modelos, pero no reflejan el rendimiento en tareas reales. Estos son nuestros resultados con tareas del día a día.

Velocidad en Mac M2 Pro 32 GB (Ollama, Q4_K_M):

Velocidad en servidor con RTX 4090 24 GB (vLLM, FP16):

Calidad comparativa (nuestras evaluaciones, escala 1-10):

La conclusión: para tareas sencillas-medianas, Qwen 27B está a 0.5-1 punto de las APIs comerciales. Para tareas complejas, la brecha se amplía. La estrategia óptima es usar Qwen local para datos sensibles y tareas estándar, y APIs externas para tareas complejas con datos no sensibles. Para una comparativa más amplia, consulta qué LLM elegir.

Errores comunes

1. Usar FP16 cuando Q4 es suficiente. FP16 consume el doble de VRAM y es un 30-40% más lento que Q4. La diferencia de calidad es mínima para la mayoría de tareas. Empieza con Q4 y sube solo si detectas problemas de calidad.

2. No ajustar la temperatura. El default (0.7) es bueno para chat creativo. Para tareas de precisión (clasificación, extracción, formato estructurado), baja a 0.1-0.3. Para generación creativa (marketing, contenido), sube a 0.8-1.0.

3. Ignorar el system prompt. Qwen responde mucho mejor con un system prompt específico. "Eres un experto en X. Respondes en español, de forma concisa, con datos concretos." produce resultados significativamente mejores que un prompt genérico.

4. Desplegar en producción con Ollama. Ollama es para desarrollo. Para producción con múltiples usuarios, usa vLLM o TGI (Text Generation Inference de HuggingFace). La diferencia en throughput es de 3-5x.

5. No monitorizar. En producción, monitoriza latencia, throughput, uso de VRAM y calidad de respuestas. Sin métricas, no sabes si el modelo se está degradando. Para más contexto sobre fine-tuning y optimización, consulta cuándo necesitas fine-tuning.

Preguntas frecuentes

¿Es Qwen 3.5 mejor que Llama 3.3 para español?

En nuestras pruebas, sí. Qwen fue entrenado con un dataset multi-idioma más diverso. En tareas de generación de texto en español, produce texto más natural y con menos anglicismos. En comprensión lectora y razonamiento, la diferencia es menor. Para código, ambos son competentes. Para tareas generales en español, Qwen es nuestra recomendación.

¿Puedo usar Qwen 3.5 comercialmente sin pagar licencia?

Sí. Licencia Apache 2.0: uso comercial sin restricciones. Puedes usarlo en productos, servicios y aplicaciones internas sin pagar royalties. La única condición es mantener la atribución de licencia.

¿Qué tamaño de Qwen debo elegir?

7B para desarrollo y tareas generales. 14B cuando el 7B se queda corto. 27B para producción seria (el sweet spot). 72B cuando necesitas máxima calidad y tienes GPU de 48 GB+. Los modelos de 0.5B-3B son para tareas de clasificación y extracción específicas donde la velocidad importa más que la creatividad.

¿Cómo se compara Qwen 3.5 27B con GPT-4o o Claude?

Cubre el 80% de los casos de uso con calidad aceptable. En tareas simples la diferencia es mínima. En tareas complejas (razonamiento multistep, code generation avanzado), GPT-4o y Claude siguen siendo superiores. La ventaja de Qwen: coste cero y soberanía de datos.

Si quieres dominar modelos open-weight con ejercicios prácticos, consulta los planes de IAcademy.

Domina los modelos open-weight

Los 3 primeros módulos de IAcademy son gratis. Incluyen prompting avanzado y configuración de LLMs para desarrollo y producción.

Empieza gratis

Curso completo: 108 módulos de IA aplicada

11 especializaciones por departamento. Dashboard con progreso. Quizzes y skills desbloqueables. Desde 399 EUR.

Ver precios Acceder al portal