Ollama: guía completa en español (instalar, modelos, API)

Que es Ollama

Ollama es una herramienta que permite correr modelos de lenguaje (LLMs) en tu propio equipo. Sin coste de API, sin enviar datos a terceros, sin límites de uso. Funciona en macOS, Linux y Windows.

Antes de Ollama, correr un LLM local requeria instalar CUDA, compilar llama.cpp, descargar pesos manualmente y configurar parámetros. Ollama reduce todo eso a un comando: ollama run qwen3:8b.

Instalacion

En macOS: brew install ollama. En Linux: curl -fsSL https://ollama.com/install.sh | sh. En Docker: docker run -d --gpus all -p 11434:11434 ollama/ollama.

Ollama detecta automaticamente tu GPU (NVIDIA, AMD, Apple Silicon) y optimiza la inferencia.

Modelos recomendados para empezar

qwen3:8b (4.9GB): el mejor para empezar. Multilingue, código, razonamiento. ~40 tokens/s en RTX 4090.

llama3.2:3b (2GB): rápido, ideal para tareas simples. ~80 tokens/s.

phi4:14b (9.1GB): excelente en razonamiento matematico. Compite con modelos de 70B en lógica.

codestral:22b (12GB): especializado en código. 338 lenguajes. Ideal para asistentes de desarrollo.

API REST

Ollama expone una API compatible con OpenAI en http://localhost:11434. Esto significa que cualquier aplicación que use el SDK de OpenAI puede apuntar a Ollama sin cambiar código:

from openai import OpenAI

client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
response = client.chat.completions.create(
    model="qwen3:8b",
    messages=[{"role": "user", "content": "Que es Docker?"}]
)
print(response.choices[0].message.content)

Modelfiles: modelos custom

Un Modelfile es como un Dockerfile pero para LLMs. Define un modelo con system prompt y parámetros fijos:

FROM qwen3:8b
SYSTEM "Eres un experto en ciberseguridad. Responde en español."
PARAMETER temperature 0.3
PARAMETER num_ctx 8192

Crear: ollama create mi-asistente -f Modelfile. Usar: ollama run mi-asistente.

Embeddings para RAG

Ollama puede generar embeddings locales con nomic-embed-text (274MB). Combinado con Qdrant, tienes un stack RAG completo sin coste de API y con privacidad total.

Ollama + n8n

En Docker Compose, n8n puede comunicarse con Ollama usando un nodo HTTP Request apuntando a http://ollama:11434/v1/chat/completions. Esto permite clasificar emails, generar respuestas y procesar documentos en workflows automatizados.

Cuando usar Ollama vs vLLM

Ollama: desarrollo local, aplicaciones internas con pocos usuarios, prototipos. vLLM: producción con alta concurrencia, tensor parallelism, máxima velocidad. Ambos usan API OpenAI-compatible: cambiar de uno a otro solo requiere cambiar la URL.

Aprende más en IAcademy

Los 3 primeros módulos son gratis. Cubre desde prompting hasta agentes IA y deploy en producción.

Empieza gratis

Curso completo: 151 módulos de IA aplicada

13 especializaciones. Claude API, LangChain, Ollama, fine-tuning. Dashboard con progreso. Desde 399 EUR.

Ver precios Acceder al portal