En este artículo
- Qué es Ollama y por qué importa
- Instalación en macOS
- Instalación en Linux
- Instalación en Windows
- Tu primer modelo: Qwen 3.5
- Comandos esenciales
- API local: integra Ollama con tus apps
- Open WebUI: interfaz gráfica para Ollama
- Modelos recomendados por hardware
- Rendimiento y optimización
- Preguntas frecuentes
Ollama es la forma más sencilla de ejecutar modelos de lenguaje en tu propio equipo. Sin cuentas, sin API keys, sin coste. Descargas, instalas, ejecutas un comando y tienes un LLM funcionando en local. Tus datos no salen de tu máquina.
En 2026, Ollama soporta cientos de modelos: Qwen, Llama, Phi, Mistral, DeepSeek, Gemma y muchos más. Funciona en macOS, Linux y Windows. Y tiene una API compatible con el formato de OpenAI, lo que significa que cualquier aplicación que funcione con la API de OpenAI puede funcionar con Ollama cambiando una URL.
Esta guía cubre la instalación paso a paso, los primeros comandos, la configuración de la API local, la interfaz gráfica con Open WebUI y una comparativa de modelos por hardware disponible.
Resumen rápido
Instalar Ollama: un comando en macOS/Linux, un instalador en Windows. Descargar un modelo: ollama pull qwen3.5:7b. Ejecutar: ollama run qwen3.5:7b. API local en http://localhost:11434. Todo gratis, todo en tu equipo.
Qué es Ollama y por qué importa
Ollama es un runtime para modelos de lenguaje. Gestiona la descarga, cuantización, carga en memoria y ejecución de modelos LLM en hardware de consumo. Sin Ollama, ejecutar un modelo en local requiere configurar Python, instalar dependencias (transformers, torch, bitsandbytes), gestionar cuantizaciones manualmente y resolver conflictos de versiones. Ollama abstrae todo eso en un único binario.
Por qué ejecutar modelos en local. Tres razones principales. Primera: privacidad. Tus datos (documentos, código, conversaciones) no salen de tu equipo. Segunda: coste. Sin límites de tokens, sin suscripciones, sin factura mensual. Tercera: disponibilidad. Funciona sin internet, sin caídas de servicio, sin rate limits.
Limitaciones. Los modelos locales son más pequeños que los de API (7B-27B vs los 200B+ de GPT-4o o Claude). Para tareas simples (resumen, clasificación, traducción, chat) son más que suficientes. Para tareas complejas (razonamiento multistep, code generation de proyectos grandes, análisis legal detallado), los modelos de API siguen siendo superiores. La clave es saber cuándo usar cada uno. Para profundizar en esta elección, consulta qué LLM elegir.
Instalación en macOS
macOS es la plataforma donde Ollama funciona mejor, especialmente en Macs con Apple Silicon (M1, M2, M3, M4). La memoria unificada permite que modelos de hasta 27B se ejecuten en un Mac con 32 GB de RAM sin GPU dedicada.
Opción 1: Descarga directa. Ve a ollama.com/download, descarga el archivo .dmg para macOS, arrastra Ollama a la carpeta Aplicaciones y ejecuta. Ollama se instala como servicio en segundo plano y queda disponible desde el terminal.
Opción 2: Homebrew.
brew install ollama
Después de instalar, inicia el servicio:
ollama serve
Verificar instalación. Abre Terminal y ejecuta:
ollama --version
Deberías ver algo como ollama version 0.6.x. Si aparece el número de versión, la instalación es correcta.
Instalación en Linux
En Linux, la instalación es un único comando. Ollama detecta automáticamente si tienes GPU NVIDIA (con drivers CUDA) o AMD (con ROCm) y configura la aceleración.
curl -fsSL https://ollama.com/install.sh | sh
Este script instala el binario, crea un servicio systemd y arranca Ollama automáticamente. Para verificar:
ollama --version
systemctl status ollama
GPU NVIDIA. Si tienes una GPU NVIDIA, asegúrate de tener los drivers instalados y CUDA Toolkit. Ollama los detecta automáticamente. Verifica con:
nvidia-smi
Si ves la tabla con tu GPU y la versión de CUDA, Ollama usará la GPU automáticamente.
Sin GPU. Ollama funciona en CPU sin configuración adicional. Es más lento, pero funcional para modelos de hasta 7B-8B parámetros.
Instalación en Windows
Descarga el instalador desde ollama.com/download (archivo .exe). Ejecuta el instalador, acepta los términos y espera a que termine. Ollama se instala como servicio de Windows y queda disponible desde PowerShell o CMD.
Verificar en PowerShell:
ollama --version
GPU NVIDIA en Windows. Igual que en Linux: drivers NVIDIA actualizados y CUDA Toolkit. Ollama detecta la GPU automáticamente. GPU AMD también está soportada en Windows con drivers recientes.
WSL2 como alternativa. Si prefieres el entorno Linux, puedes instalar Ollama dentro de WSL2 (Windows Subsystem for Linux). El rendimiento es prácticamente idéntico al nativo y tienes acceso a la GPU a través de WSL2.
Tu primer modelo: Qwen 3.5
Con Ollama instalado, el siguiente paso es descargar tu primer modelo. Recomendamos Qwen 3.5 (7B) como punto de partida. Es el mejor modelo general en su rango de tamaño, con buen rendimiento en español.
ollama pull qwen3.5:7b
La descarga ocupa unos 4.5 GB. Una vez descargado, ejecuta:
ollama run qwen3.5:7b
Se abre un chat interactivo en el terminal. Escribe cualquier pregunta y el modelo responde. Para salir, escribe /bye.
Probar la calidad. Algunas pruebas rápidas para verificar que funciona bien:
- "Resume este texto en 3 puntos:" + un párrafo largo.
- "Escribe un email profesional para pedir un aumento de sueldo."
- "Explica qué es el RGPD en 5 frases."
- "Traduce al inglés: La inteligencia artificial está transformando todos los sectores."
Si las respuestas son coherentes y en español correcto, todo funciona. Si son lentas, revisa la sección de rendimiento más abajo.
Comandos esenciales
Los comandos que vas a usar el 90% del tiempo:
# Descargar un modelo
ollama pull qwen3.5:7b
# Ejecutar chat interactivo
ollama run qwen3.5:7b
# Listar modelos descargados
ollama list
# Mostrar info de un modelo
ollama show qwen3.5:7b
# Eliminar un modelo
ollama rm qwen3.5:7b
# Copiar un modelo (para personalizar)
ollama cp qwen3.5:7b mi-modelo
# Ver modelos en ejecución
ollama ps
# Parar Ollama
ollama stop
Prompts desde la línea de comandos (sin chat interactivo):
# Enviar un prompt único
echo "Explica qué es Docker en 3 frases" | ollama run qwen3.5:7b
# Desde un archivo
cat documento.txt | ollama run qwen3.5:7b "Resume este documento"
Esto es útil para scripts y automatizaciones donde no necesitas chat interactivo.
API local: integra Ollama con tus apps
Ollama expone una API REST en http://localhost:11434. Esta API es compatible con el formato de OpenAI, lo que facilita la integración con cualquier herramienta que soporte la API de OpenAI.
Endpoint de chat (formato OpenAI):
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3.5:7b",
"messages": [
{"role": "user", "content": "Hola, ¿qué puedes hacer?"}
]
}'
Desde Python:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # Ollama no requiere API key
)
response = client.chat.completions.create(
model="qwen3.5:7b",
messages=[{"role": "user", "content": "Hola"}]
)
print(response.choices[0].message.content)
La compatibilidad con la API de OpenAI significa que puedes usar la librería oficial openai de Python, cambiar base_url y todo funciona. Cualquier app que soporte "OpenAI-compatible endpoints" funciona con Ollama.
Embeddings. Ollama también genera embeddings para RAG y búsqueda semántica:
curl http://localhost:11434/api/embed \
-d '{"model": "qwen3.5:7b", "input": "texto para embeber"}'
Open WebUI: interfaz gráfica para Ollama
Si prefieres una interfaz tipo ChatGPT en lugar del terminal, Open WebUI es la mejor opción. Es un frontend web open source que se conecta a Ollama y ofrece: chat con historial, selección de modelos, subida de documentos, búsqueda web integrada y gestión de usuarios.
Instalación con Docker (recomendada):
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
ghcr.io/open-webui/open-webui:main
Abre http://localhost:3000 en el navegador. Crea una cuenta (local, no se envía a ningún sitio) y empieza a chatear con tus modelos de Ollama.
Sin Docker (pip):
pip install open-webui
open-webui serve
Open WebUI detecta automáticamente los modelos de Ollama disponibles. Puedes cambiar de modelo en cada conversación, adjuntar documentos para que el modelo los analice y compartir conversaciones con otros usuarios de tu equipo.
Modelos recomendados por hardware
La elección del modelo depende de tu hardware. Esta tabla resume las opciones prácticas:
8 GB de RAM (sin GPU):
- qwen3.5:1.5b: rápido, útil para tareas sencillas (clasificación, extracción, traducciones cortas).
- phi4-mini:3.8b: buen equilibrio para razonamiento básico.
- gemma3:4b: alternativa de Google, buena para resumen.
16 GB de RAM (sin GPU, o Mac M1/M2):
- qwen3.5:7b: la mejor opción general. Buen español, rápido, versátil.
- llama3.3:8b: alternativa de Meta, fuerte en inglés.
- deepseek-r1:7b: especializado en razonamiento.
32 GB de RAM (Mac M2/M3/M4 Pro o GPU 12GB+):
- qwen3.5:14b: salto de calidad notable respecto al 7B.
- qwen3.5:27b: el sweet spot para producción local. Calidad cercana a APIs comerciales.
- deepseek-r1:14b: razonamiento avanzado en local.
64 GB+ de RAM (Mac M3/M4 Max o GPU 24GB+):
- qwen3.5:32b: calidad superior en tareas complejas.
- llama3.3:70b: necesita cuantización Q4 para caber. Muy capaz.
- deepseek-r1:32b: razonamiento de alto nivel.
Para descargar un modelo específico: ollama pull nombre:tamaño. Para una comparativa detallada, lee qué LLM elegir en 2026.
Rendimiento y optimización
Velocidad de generación. La métrica clave es tokens por segundo (tok/s). Para chat interactivo, necesitas al menos 10 tok/s. Por debajo de 5 tok/s, la experiencia es frustrante. Referencia en un Mac M2 con 16 GB:
- qwen3.5:7b: ~25 tok/s (excelente)
- qwen3.5:14b: ~12 tok/s (bueno)
- qwen3.5:27b: ~6 tok/s (lento para chat, viable para batch)
Primer token (latencia). El primer token tarda más porque el modelo tiene que cargar el contexto. Con un prompt corto (100 tokens), el primer token llega en 1-3 segundos. Con un prompt largo (4000 tokens), puede tardar 5-15 segundos dependiendo del hardware.
Consejos de optimización:
- Cierra aplicaciones que consuman mucha RAM antes de ejecutar modelos grandes.
- En Mac, no uses Chrome con 50 pestañas abiertas mientras ejecutas un modelo 27B. Safari consume menos memoria.
- Usa cuantizaciones más agresivas (Q4 en lugar de Q8) si la velocidad importa más que la calidad. Ollama descarga Q4 por defecto.
- Para scripts batch, usa la API (no el chat interactivo) y envía múltiples requests en paralelo.
- Configura
OLLAMA_NUM_PARALLELpara controlar cuántas peticiones simultáneas acepta.
Variables de entorno útiles:
# Cambiar el puerto (defecto: 11434)
OLLAMA_HOST=0.0.0.0:11434
# Número de capas en GPU
OLLAMA_NUM_GPU=999
# Directorio de modelos (si quieres moverlos a otro disco)
OLLAMA_MODELS=/ruta/a/modelos
# Peticiones paralelas
OLLAMA_NUM_PARALLEL=2
Preguntas frecuentes
¿Ollama es gratuito?
Sí, completamente gratuito y open source (licencia MIT). No tiene coste de licencia, no requiere cuenta y no envía datos a ningún servidor externo. Los modelos también son gratuitos (open-weight). El único coste es tu hardware y la electricidad.
¿Cuánta RAM necesito?
Depende del modelo. 8 GB para modelos de 1-3B, 16 GB para modelos de 7-8B, 32 GB para modelos de 14-27B. En Mac con Apple Silicon, la memoria unificada se comparte con la GPU, lo que mejora el rendimiento. En PCs con GPU NVIDIA, la VRAM de la GPU es el factor limitante.
¿Puedo usar Ollama sin GPU?
Sí. Es más lento que con GPU pero funcional. Un modelo 7B en CPU genera 5-15 tokens/segundo. En Mac con Apple Silicon (M1+), el rendimiento es excelente sin GPU dedicada. En PCs Intel/AMD sin GPU, modelos de 3B o menos son los más prácticos.
¿Mis datos salen de mi equipo?
No. Ollama ejecuta todo localmente. Ningún dato sale de tu máquina durante la inferencia. La única conexión a internet es al descargar modelos. Una vez descargado, puedes usar Ollama completamente offline.
Si quieres profundizar en modelos locales con ejercicios prácticos, consulta los planes de IAcademy.
Domina los modelos de IA en local
Los 3 primeros módulos de IAcademy son gratis. Incluyen prompting avanzado y configuración de LLMs locales paso a paso.
Empieza gratisCurso completo: 108 módulos de IA aplicada
11 especializaciones por departamento. Dashboard con progreso. Quizzes y skills desbloqueables. Desde 399 EUR.