En este artículo
DeepSeek irrumpió en el mercado de LLMs con un modelo que superó a GPT-4o en razonamiento matemático y lo hizo open source. En 2026, DeepSeek ofrece tres familias de modelos: R1 (razonamiento), V3 (uso general) y Coder (programación). Los tres están disponibles para descargar y ejecutar en local, sin coste y sin enviar datos a ninguna parte.
La propuesta de valor de DeepSeek es clara: razonamiento transparente. Mientras GPT-4o y Claude producen respuestas directas (el razonamiento es interno y opaco), DeepSeek R1 muestra su proceso de pensamiento paso a paso. Puedes ver cómo llega a una conclusión, identificar dónde se equivoca y corregir el razonamiento. Esto es especialmente útil en matemáticas, lógica, debugging y análisis complejo.
En esta guía cubrimos todo lo que necesitas para usar DeepSeek en 2026: modelos, instalación local, API, comparativa honesta con la competencia, limitaciones reales y consideraciones de privacidad.
Resumen rápido
DeepSeek: modelos open-weight de China. R1 para razonamiento, V3 general, Coder para código. Instalación local: ollama pull deepseek-r1:7b. API disponible pero servidores en China. Para privacidad: siempre ejecución local. Mejor que GPT en matemáticas, peor en creatividad y español.
Qué es DeepSeek
DeepSeek es una empresa china de inteligencia artificial fundada en 2023 por Liang Wenfeng, fundador del hedge fund High-Flyer. A diferencia de OpenAI o Anthropic, DeepSeek pública sus modelos como open-weight bajo licencia MIT, permitiendo uso comercial sin restricciones.
El hito que puso a DeepSeek en el mapa fue el lanzamiento de R1 a principios de 2025. Un modelo que igualaba o superaba a GPT-4o en benchmarks de razonamiento, y que cualquiera podía descargar y ejecutar. Esto disparó el debate sobre la viabilidad de los modelos open source frente a las APIs cerradas.
En 2026, DeepSeek mantiene su enfoque: modelos potentes, open source, con énfasis en razonamiento. Su ventaja competitiva no es ser el mejor en todo (no lo es), sino ser el mejor en razonamiento transparente y estar disponible sin restricciones.
Modelos disponibles: R1, V3 y Coder
DeepSeek R1 (razonamiento). El buque insignia. Disponible en 671B (modelo completo, Mixture of Experts) y versiones destiladas de 1.5B a 70B. La característica distintiva es el chain-of-thought visible: el modelo muestra su proceso de razonamiento entre etiquetas <think> antes de dar la respuesta final. Esto permite verificar la lógica, no solo el resultado.
DeepSeek V3 (general). Modelo de uso general comparable a GPT-4o. 671B parámetros (MoE). Bueno para chat, resumen, traducción y tareas estándar. Menos especializado en razonamiento que R1, pero más versátil y más rápido.
DeepSeek Coder (programación). Optimizado para generación, completado y debugging de código. Soporta más de 80 lenguajes de programación. Competitivo con GitHub Copilot y Codestral. Las versiones destiladas (6.7B, 33B) funcionan bien en local para autocompletado en editores.
Tamaños destilados de R1 (los que puedes ejecutar en local):
- 1.5B: 4 GB RAM. Rápido pero capacidad de razonamiento limitada.
- 7B: 8-16 GB RAM. El punto de entrada recomendado.
- 8B: 16 GB RAM. Basado en Llama, buen equilibrio.
- 14B: 16-32 GB RAM. Salto de calidad en razonamiento.
- 32B: 32-64 GB RAM. El sweet spot para razonamiento serio en local.
- 70B: 64 GB+ RAM. Máxima calidad destilada.
Instalación local con Ollama
Si aún no tienes Ollama, consulta nuestra guía de instalación. Con Ollama instalado:
# DeepSeek R1 (razonamiento) - tamaños destilados
ollama pull deepseek-r1:7b
ollama pull deepseek-r1:14b
ollama pull deepseek-r1:32b
# DeepSeek Coder
ollama pull deepseek-coder-v2:16b
# Ejecutar
ollama run deepseek-r1:7b
Probando el razonamiento. La magia de R1 está en los problemas que requieren pensar. Prueba con estos prompts:
# Matemáticas
"Un granjero tiene 17 ovejas. Todas menos 9 se escapan.
¿Cuántas ovejas le quedan?"
# Lógica
"Si todos los bloops son razzies, y todos los razzies son
lazzies, ¿son todos los bloops lazzies?"
# Programación
"Escribe una función en Python que determine si un número
es primo. Explica tu razonamiento paso a paso."
Verás que el modelo primero muestra su proceso de pensamiento (a veces largo, varios párrafos) y luego la respuesta final. Ese proceso de pensamiento es lo que hace único a R1.
Desactivar el thinking. Si solo quieres la respuesta sin el chain-of-thought, añade al system prompt: "Responde directamente sin mostrar tu proceso de razonamiento." O usa el parámetro /no_think si tu interfaz lo soporta.
La API de DeepSeek
DeepSeek ofrece una API en api.deepseek.com. Es compatible con el formato de OpenAI, lo que facilita la integración. El precio es significativamente más bajo que OpenAI o Anthropic.
Precios (junio 2026):
- DeepSeek V3: ~0.27 USD/1M tokens input, ~1.10 USD/1M tokens output
- DeepSeek R1: ~0.55 USD/1M tokens input, ~2.19 USD/1M tokens output
Esto es 5-10x más barato que GPT-4o y Claude Sonnet.
from openai import OpenAI
client = OpenAI(
base_url="https://api.deepseek.com",
api_key="tu-api-key"
)
response = client.chat.completions.create(
model="deepseek-reasoner",
messages=[{"role": "user", "content": "Resuelve: 23 x 47"}]
)
print(response.choices[0].message.content)
Comparativa con GPT, Claude y Qwen
Una comparativa honesta, basada en nuestras pruebas reales, no en benchmarks de marketing.
Razonamiento matemático/lógico: DeepSeek R1 > GPT-4o > Claude Sonnet > Qwen 27B. R1 es el líder claro en problemas que requieren razonamiento paso a paso. La ventaja se nota especialmente en problemas de múltiples pasos donde los modelos generalistas se pierden.
Generación de texto en español: Claude > GPT-4o > Qwen 3.5 > DeepSeek. DeepSeek produce texto en español correcto pero menos natural que los competidores. Los anglicismos y construcciones extrañas al español aparecen con más frecuencia. Para más detalle, consulta nuestra comparativa DeepSeek vs ChatGPT.
Programación: Claude > DeepSeek Coder > GPT-4o > Qwen 27B. DeepSeek Coder es muy competente, especialmente en Python y JavaScript. Claude sigue siendo el líder en code generation, pero DeepSeek Coder es la mejor alternativa gratuita.
Seguimiento de instrucciones: Claude > GPT-4o > Qwen > DeepSeek. DeepSeek tiende a "sobre-razonar" en tareas simples. Cuando le pides un formato específico (JSON, tabla, lista), a veces añade explicaciones innecesarias o modifica el formato. Esto se mitiga con prompts más explícitos.
Velocidad (ejecución local, Ollama, Mac M2 Pro 32 GB):
- DeepSeek R1 7B: ~20 tok/s (pero el thinking añade latencia total)
- DeepSeek R1 14B: ~10 tok/s
- DeepSeek R1 32B: ~4 tok/s
La latencia percibida de R1 es mayor que la de otros modelos porque genera primero el bloque de thinking (que puede ser largo) antes de la respuesta.
Ventajas en razonamiento
El chain-of-thought visible de R1 tiene aplicaciones prácticas más allá de las matemáticas.
Debugging de código. Cuando le pasas código con un bug, R1 recorre el código línea por línea en su bloque de thinking, identifica el flujo de datos, detecta dónde se rompe y explica por qué. Otros modelos dan la solución directa (que a veces es incorrecta); R1 muestra el razonamiento, lo que permite verificar si realmente entendió el problema.
Análisis de riesgos. Para evaluar riesgos (financieros, de seguridad, de compliance), R1 desglosa el problema en factores, pondera cada uno y justifica su conclusión. El proceso de pensamiento visible permite al profesional validar o cuestionar cada paso del análisis.
Problemas de decisión. "¿Deberíamos migrar de AWS a Hetzner?" R1 no da una respuesta directa. Enumera factores (coste, latencia, compliance, disponibilidad, migración), evalúa cada uno, identifica trade-offs y llega a una recomendación justificada. Ese proceso intermedio tiene valor por sí mismo.
Educación. Para estudiantes y profesionales que están aprendiendo, ver cómo un modelo resuelve un problema paso a paso es educativo. Es como tener un tutor que muestra su trabajo, no solo la respuesta en la pizarra.
Limitaciones reales
DeepSeek no es perfecto. Estas son las limitaciones que hemos encontrado en uso real.
1. Español mediocre. El modelo fue entrenado predominantemente con texto en inglés y chino. El español funciona, pero la calidad de generación es inferior a Qwen, Claude o GPT. Para tareas que requieren español natural (emails, informes, contenido), Qwen 3.5 es mejor opción.
2. Sobre-razonamiento. R1 a veces piensa demasiado. Una pregunta simple como "¿Cuál es la capital de Francia?" puede generar 200 tokens de thinking antes de responder "París". Para tareas sencillas, un modelo más simple es más eficiente.
3. Velocidad percibida. El bloque de thinking añade latencia. Aunque la velocidad de generación (tok/s) sea similar a otros modelos, el tiempo total hasta obtener la respuesta útil es mayor porque primero genera el razonamiento.
4. Censura y alineamiento. DeepSeek tiene filtros de censura en temas políticamente sensibles para China (Taiwán, Tiananmen, líderes políticos chinos). En ejecución local, estos filtros son más laxos que en la API, pero siguen presentes en el modelo base.
5. Alucinaciones en datos factuales. Como todos los LLMs, DeepSeek alucina. En nuestras pruebas, la tasa de alucinaciones factuales es ligeramente superior a la de GPT-4o y Claude. El chain-of-thought ayuda a detectar las alucinaciones (puedes ver dónde el razonamiento se desvía), pero no las elimina.
Privacidad y soberanía
Este es el tema más importante al evaluar DeepSeek. La empresa está en China. Los servidores de la API están en China. La ley china permite al gobierno acceder a datos almacenados en servidores nacionales.
Regla simple:
- Datos sensibles, personales o regulados: nunca usar la API. Ejecutar en local con Ollama/vLLM.
- Datos públicos o no sensibles: la API es una opción viable y económica.
- Entornos regulados (RGPD, ENS, NIS2): solo ejecución local en infraestructura propia dentro de la UE.
Ejecución local = soberanía total. Cuando descargas DeepSeek R1 y lo ejecutas con Ollama, el modelo funciona completamente offline. Ningún dato sale de tu equipo. Ningún log se envía a ningún servidor. Es equivalente a ejecutar cualquier otro software local. La procedencia china del modelo no importa cuando la ejecución es local, de la misma forma que usar Linux (que tiene contribuidores de todo el mundo) en un servidor europeo no compromete la soberanía.
Verificación. Si te preocupa que el modelo tenga algún tipo de teléfono a casa (callback oculto), puedes verificarlo ejecutando Ollama sin conexión a internet. Desconecta la red, ejecuta el modelo y verifica que funciona. Si funciona offline, no hay comunicación externa.
Casos de uso prácticos
1. Resolvión de problemas complejos. Cuando necesitas resolver un problema que requiere múltiples pasos lógicos. R1 desglosa el problema, muestra cada paso y llega a la solución. Ideal para álgebra, estadística, optimización y problemas de ingeniería.
2. Code review profundo. Pasa una función o clase a R1 y pídele que identifique bugs, problemas de rendimiento y mejoras. El thinking visible muestra cómo analiza cada línea, lo que da confianza en el resultado.
3. Preparación de entrevistas técnicas. R1 es excelente para practicar problemas de LeetCode y entrevistas de programación. Muestra la solución paso a paso, explica la complejidad algorítmica y ofrece alternativas.
4. Análisis de contratos y documentos legales. Para identificar cláusulas problemáticas, R1 razona sobre cada cláusula y sus implicaciones. Aunque el español no es perfecto, el análisis lógico es sólido. Siempre en local para documentos con datos sensibles.
5. Aprendizaje y tutoring. Estudiantes de matemáticas, física o programación pueden usar R1 como tutor que muestra su trabajo. Mucho más útil que un modelo que da la respuesta directa sin explicación.
6. Modelo complementario. En nuestro stack, usamos Qwen 3.5 para tareas generales y R1 para tareas que requieren razonamiento explícito. No se trata de elegir uno u otro, sino de usar cada modelo donde mejor rinde.
Preguntas frecuentes
¿Es seguro usar DeepSeek? ¿Mis datos van a China?
Si usas la API (api.deepseek.com), sí, tus datos pasan por servidores en China. Si ejecutas los modelos en local con Ollama, no sale ningún dato de tu equipo. Para datos sensibles, siempre ejecución local. Los modelos son open-weight (MIT License), puedes descargarlos y ejecutarlos en tu infraestructura sin conexión a DeepSeek.
¿En qué es mejor DeepSeek R1 que GPT-4o?
Razonamiento matemático, lógico y científico. En benchmarks como MATH y GSM8K supera a GPT-4o. La diferencia clave es el chain-of-thought visible, que permite verificar la lógica. GPT-4o sigue siendo superior en texto creativo, seguimiento de instrucciones y conocimiento general. Para matemáticas y código algorítmico, R1 es la mejor opción gratuita.
¿Puedo ejecutar DeepSeek R1 en mi portátil?
Sí, con Ollama. La versión de 7B funciona con 8-16 GB de RAM. La de 14B necesita 16-32 GB. La de 32B, 32-64 GB. El modelo completo (671B) requiere hardware de datacenter. Para portátiles, la versión de 7B es la más práctica.
¿Cuál es la diferencia entre R1, V3 y Coder?
R1: razonamiento (matemáticas, lógica, ciencia). Chain-of-thought visible. V3: uso general (chat, resumen, traducción). Coder: programación (generación de código, debugging). Para la mayoría de usuarios, R1 es el más interesante por su razonamiento transparente. Para tareas generales en español, Qwen 3.5 es mejor opción que V3.
Si quieres dominar modelos de IA con ejercicios prácticos, consulta los planes de IAcademy.
Domina los modelos de IA open source
Los 3 primeros módulos de IAcademy son gratis. Incluyen prompting avanzado y configuración de LLMs locales.
Empieza gratisCurso completo: 108 módulos de IA aplicada
11 especializaciones por departamento. Dashboard con progreso. Quizzes y skills desbloqueables. Desde 399 EUR.