Que es Ollama
Ollama es una herramienta que permite correr modelos de lenguaje (LLMs) en tu propio equipo. Sin coste de API, sin enviar datos a terceros, sin límites de uso. Funciona en macOS, Linux y Windows.
Antes de Ollama, correr un LLM local requeria instalar CUDA, compilar llama.cpp, descargar pesos manualmente y configurar parámetros. Ollama reduce todo eso a un comando: ollama run qwen3:8b.
Instalacion
En macOS: brew install ollama. En Linux: curl -fsSL https://ollama.com/install.sh | sh. En Docker: docker run -d --gpus all -p 11434:11434 ollama/ollama.
Ollama detecta automaticamente tu GPU (NVIDIA, AMD, Apple Silicon) y optimiza la inferencia.
Modelos recomendados para empezar
qwen3:8b (4.9GB): el mejor para empezar. Multilingue, código, razonamiento. ~40 tokens/s en RTX 4090.
llama3.2:3b (2GB): rápido, ideal para tareas simples. ~80 tokens/s.
phi4:14b (9.1GB): excelente en razonamiento matematico. Compite con modelos de 70B en lógica.
codestral:22b (12GB): especializado en código. 338 lenguajes. Ideal para asistentes de desarrollo.
API REST
Ollama expone una API compatible con OpenAI en http://localhost:11434. Esto significa que cualquier aplicación que use el SDK de OpenAI puede apuntar a Ollama sin cambiar código:
from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
response = client.chat.completions.create(
model="qwen3:8b",
messages=[{"role": "user", "content": "Que es Docker?"}]
)
print(response.choices[0].message.content)
Modelfiles: modelos custom
Un Modelfile es como un Dockerfile pero para LLMs. Define un modelo con system prompt y parámetros fijos:
FROM qwen3:8b
SYSTEM "Eres un experto en ciberseguridad. Responde en español."
PARAMETER temperature 0.3
PARAMETER num_ctx 8192
Crear: ollama create mi-asistente -f Modelfile. Usar: ollama run mi-asistente.
Embeddings para RAG
Ollama puede generar embeddings locales con nomic-embed-text (274MB). Combinado con Qdrant, tienes un stack RAG completo sin coste de API y con privacidad total.
Ollama + n8n
En Docker Compose, n8n puede comunicarse con Ollama usando un nodo HTTP Request apuntando a http://ollama:11434/v1/chat/completions. Esto permite clasificar emails, generar respuestas y procesar documentos en workflows automatizados.
Cuando usar Ollama vs vLLM
Ollama: desarrollo local, aplicaciones internas con pocos usuarios, prototipos. vLLM: producción con alta concurrencia, tensor parallelism, máxima velocidad. Ambos usan API OpenAI-compatible: cambiar de uno a otro solo requiere cambiar la URL.
Aprende más en IAcademy
Los 3 primeros módulos son gratis. Cubre desde prompting hasta agentes IA y deploy en producción.
Empieza gratisCurso completo: 151 módulos de IA aplicada
13 especializaciones. Claude API, LangChain, Ollama, fine-tuning. Dashboard con progreso. Desde 399 EUR.