IA Avanzada

Ollama: guía completa en español (instalar, modelos, API)

Por Ricardo Gutierrez · · 11 min lectura

Ollama Tutorial Espanol

Que es Ollama

Ollama es una herramienta que permite correr modelos de lenguaje (LLMs) en tu propio equipo. Sin coste de API, sin enviar datos a terceros, sin límites de uso. Funciona en macOS, Linux y Windows.

Antes de Ollama, correr un LLM local requeria instalar CUDA, compilar llama.cpp, descargar pesos manualmente y configurar parámetros. Ollama reduce todo eso a un comando: ollama run qwen3:8b.

Instalacion

En macOS: brew install ollama. En Linux: curl -fsSL https://ollama.com/install.sh | sh. En Docker: docker run -d --gpus all -p 11434:11434 ollama/ollama.

Ollama detecta automaticamente tu GPU (NVIDIA, AMD, Apple Silicon) y optimiza la inferencia.

Modelos recomendados para empezar

qwen3:8b (4.9GB): el mejor para empezar. Multilingue, código, razonamiento. ~40 tokens/s en RTX 4090.

llama3.2:3b (2GB): rápido, ideal para tareas simples. ~80 tokens/s.

phi4:14b (9.1GB): excelente en razonamiento matematico. Compite con modelos de 70B en lógica.

codestral:22b (12GB): especializado en código. 338 lenguajes. Ideal para asistentes de desarrollo.

API REST

Ollama expone una API compatible con OpenAI en http://localhost:11434. Esto significa que cualquier aplicación que use el SDK de OpenAI puede apuntar a Ollama sin cambiar código:

from openai import OpenAI

client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
response = client.chat.completions.create(
    model="qwen3:8b",
    messages=[{"role": "user", "content": "Que es Docker?"}]
)
print(response.choices[0].message.content)

Modelfiles: modelos custom

Un Modelfile es como un Dockerfile pero para LLMs. Define un modelo con system prompt y parámetros fijos:

FROM qwen3:8b
SYSTEM "Eres un experto en ciberseguridad. Responde en español."
PARAMETER temperature 0.3
PARAMETER num_ctx 8192

Crear: ollama create mi-asistente -f Modelfile. Usar: ollama run mi-asistente.

Embeddings para RAG

Ollama puede generar embeddings locales con nomic-embed-text (274MB). Combinado con Qdrant, tienes un stack RAG completo sin coste de API y con privacidad total.

Ollama + n8n

En Docker Compose, n8n puede comunicarse con Ollama usando un nodo HTTP Request apuntando a http://ollama:11434/v1/chat/completions. Esto permite clasificar emails, generar respuestas y procesar documentos en workflows automatizados.

Cuando usar Ollama vs vLLM

Ollama: desarrollo local, aplicaciones internas con pocos usuarios, prototipos. vLLM: producción con alta concurrencia, tensor parallelism, máxima velocidad. Ambos usan API OpenAI-compatible: cambiar de uno a otro solo requiere cambiar la URL.

Aprende más en IAcademy

Los 3 primeros módulos son gratis. Cubre desde prompting hasta agentes IA y deploy en producción.

Empieza gratis

Curso completo: 151 módulos de IA aplicada

13 especializaciones. Claude API, LangChain, Ollama, fine-tuning. Dashboard con progreso. Desde 399 EUR.

Ver precios Acceder al portal