En este artículo
Si ya has instalado Ollama y tienes modelos corriendo en tu máquina, el siguiente paso natural es ponerles una interfaz decente. Open WebUI es la mejor opción en 2026 para eso: interfaz tipo ChatGPT, gestión de usuarios, RAG integrado, soporte multi-modelo y despliegue en un solo comando Docker.
No importa si quieres usarlo solo para ti o para un equipo de 50 personas. Open WebUI escala desde un portátil personal hasta un servidor de producción con múltiples GPUs. Y lo mejor: es completamente gratuito y open source.
En esta guía vamos a cubrir la instalación completa, la conexión con Ollama y otros backends, la configuración multi-modelo, la gestión de usuarios y la activación del sistema RAG que te permite chatear con tus propios documentos.
Resumen rápido
Open WebUI se instala con un comando Docker, se conecta a Ollama automáticamente, soporta múltiples modelos y usuarios, e incluye RAG para documentos locales. Todo gratis y sin enviar datos a terceros.
Qué es Open WebUI y por qué usarlo
Open WebUI es una interfaz web self-hosted para modelos de lenguaje. Funciona como un ChatGPT privado que puedes instalar en tu propio hardware. Originalmente se creó como frontend para Ollama, pero ha evolucionado hasta soportar cualquier API compatible con el estándar OpenAI.
Por qué elegir Open WebUI en lugar de usar Ollama por terminal. La terminal funciona para pruebas rápidas, pero tiene limitaciones evidentes: no guarda historial entre sesiones, no permite comparar respuestas de diferentes modelos lado a lado, no soporta carga de archivos y no tiene gestión de usuarios. Open WebUI resuelve todo eso con una interfaz limpia y funcional.
Funcionalidades principales en 2026:
- Chat multi-modelo: cambia entre modelos en medio de una conversación o compara respuestas de varios modelos simultáneamente.
- RAG integrado: sube documentos (PDF, Word, texto) y el modelo los usa como contexto sin que salgan de tu máquina.
- Gestión de usuarios: cuentas individuales, roles (admin/usuario), control de acceso por modelo.
- Historial persistente: todas las conversaciones se guardan en una base de datos local.
- Pipelines y funciones: extiende la funcionalidad con plugins en Python.
- API REST: integra Open WebUI con tus propias aplicaciones.
- Búsqueda web: los modelos pueden buscar en internet si lo configuras (SearXNG, Google, Brave).
Lo que NO es Open WebUI. No es un modelo de lenguaje. No entrena modelos. No es un servicio cloud. Es una interfaz, un frontend. Necesitas un backend que ejecute los modelos: Ollama, vLLM, LM Studio o una API externa.
Requisitos previos
Antes de empezar, asegúrate de tener lo siguiente:
Docker instalado. Open WebUI se distribuye como imagen Docker. Si no tienes Docker, instálalo desde docker.com. En Linux, un curl -fsSL https://get.docker.com | sh resuelve la instalación en segundos. En macOS y Windows, descarga Docker Desktop.
Ollama instalado (recomendado). Si quieres usar modelos locales, necesitas Ollama corriendo en tu máquina. Consulta nuestra guía de instalación de Ollama para el paso a paso completo. Verifica que funciona con ollama run llama3.2.
Hardware mínimo:
- Solo Open WebUI: 2 GB de RAM, cualquier CPU moderna. La interfaz es ligera.
- Con modelos 7B (Llama 3.2, Qwen 3): 8 GB de RAM o GPU con 6 GB VRAM.
- Con modelos 13B-27B: 16-32 GB de RAM o GPU con 12-24 GB VRAM.
- Con modelos 70B: 48-64 GB de RAM o GPU con 40+ GB VRAM (A100, A6000).
Puertos disponibles. Open WebUI usa el puerto 3000 por defecto (configurable). Ollama usa el 11434. Asegúrate de que no estén ocupados.
Instalación con Docker paso a paso
La instalación base se hace con un solo comando. Hay dos escenarios principales según dónde tengas Ollama.
Escenario 1: Ollama en la misma máquina
Este es el caso más común. Ollama corre en localhost y Open WebUI se conecta directamente.
docker run -d \
--name open-webui \
--restart always \
-p 3000:8080 \
-v open-webui:/app/backend/data \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
ghcr.io/open-webui/open-webui:main
Desglose de cada parámetro:
-d: ejecuta en segundo plano (detached).--name open-webui: nombre del contenedor para referenciarlo después.--restart always: se reinicia automáticamente si el contenedor o Docker se paran.-p 3000:8080: mapea el puerto 3000 de tu máquina al 8080 interno del contenedor.-v open-webui:/app/backend/data: volumen persistente para la base de datos y configuración.-e OLLAMA_BASE_URL: URL donde Open WebUI busca Ollama.host.docker.internalresuelve al host desde dentro del contenedor.
En Linux, host.docker.internal puede no funcionar en versiones antiguas de Docker. La alternativa es usar --network=host:
docker run -d \
--name open-webui \
--restart always \
--network=host \
-v open-webui:/app/backend/data \
-e OLLAMA_BASE_URL=http://localhost:11434 \
ghcr.io/open-webui/open-webui:main
Con --network=host, Open WebUI escucha directamente en el puerto 8080 de tu máquina (sin necesidad del flag -p).
Escenario 2: Ollama en otro servidor
Si Ollama corre en un servidor diferente (por ejemplo, un servidor con GPU en tu red local), apunta la URL al IP de ese servidor:
docker run -d \
--name open-webui \
--restart always \
-p 3000:8080 \
-v open-webui:/app/backend/data \
-e OLLAMA_BASE_URL=http://192.168.1.100:11434 \
ghcr.io/open-webui/open-webui:main
Asegúrate de que Ollama en el servidor remoto escuche en todas las interfaces. Por defecto, Ollama solo escucha en localhost. Para cambiar esto, establece OLLAMA_HOST=0.0.0.0 en el servidor remoto.
Verificar la instalación
Abre http://localhost:3000 en tu navegador. Verás la pantalla de registro. El primer usuario que se registre obtiene el rol de administrador automáticamente. Después de registrarte, deberías ver los modelos disponibles en el selector de la parte superior.
Si no ves modelos, verifica la conexión con Ollama: ve a Settings > Connections y comprueba que la URL de Ollama es correcta y muestra un indicador verde.
Conexión con Ollama
Una vez Open WebUI está corriendo, la conexión con Ollama debería ser automática si la URL está bien configurada. Veamos los detalles.
Descargar modelos desde Open WebUI. No necesitas ir a la terminal para descargar modelos. Desde la interfaz, ve al selector de modelos, escribe el nombre del modelo (por ejemplo, qwen3:8b) y Open WebUI lo descarga a través de Ollama automáticamente. El progreso se muestra en tiempo real.
Modelos recomendados para empezar:
llama3.2:3b: modelo pequeño y rápido. Perfecto para pruebas y tareas simples.qwen3:8b: equilibrio entre velocidad y capacidad. Bueno para español.llama3.3:70b: máxima capacidad en open-weight. Requiere hardware potente.codestral:22b: especializado en código. Excelente para programación.nomic-embed-text: modelo de embeddings, necesario para RAG.
Para una guía completa sobre qué modelos elegir, consulta nuestra guía de Qwen y la guía de Ollama.
Configurar parámetros por modelo. Desde Settings > Models, puedes ajustar los parámetros de cada modelo: temperatura, top_p, max_tokens, system prompt por defecto. Esto es especialmente útil cuando tienes modelos para diferentes tareas: uno creativo con temperatura alta, otro preciso con temperatura baja.
Configuración multi-modelo
Open WebUI destaca por su capacidad de trabajar con múltiples backends simultáneamente. Puedes tener Ollama para modelos locales y, al mismo tiempo, conectar APIs externas.
Conectar APIs compatibles con OpenAI. Ve a Settings > Connections > OpenAI API. Añade la URL base y la API key. Esto funciona con:
- vLLM: si tienes un servidor vLLM, usa
http://tu-servidor:8000/v1como URL base. - OpenAI:
https://api.openai.com/v1con tu API key. - Anthropic (vía proxy): usando un proxy como LiteLLM que traduzca la API de Anthropic al formato OpenAI.
- Groq, Together, Fireworks: cualquier proveedor con API compatible.
Comparación lado a lado. Una funcionalidad especialmente útil: puedes enviar el mismo prompt a dos o más modelos simultáneamente y ver las respuestas lado a lado. Esto es invaluable para evaluar qué modelo funciona mejor para cada tarea.
Model aliases. Puedes crear aliases que combinan un modelo base con un system prompt específico. Por ejemplo, crear un alias "Analista de seguridad" que use Qwen3 con un system prompt orientado a ciberseguridad. Para el usuario final, aparece como un modelo diferente en el selector.
Gestión de usuarios y roles
Si vas a usar Open WebUI en un equipo, la gestión de usuarios es fundamental.
Roles disponibles:
- Admin: acceso completo. Gestión de usuarios, modelos, configuración global, pipelines.
- User: puede chatear con los modelos permitidos. Ve su propio historial. No puede cambiar la configuración global.
- Pending: usuario registrado pendiente de aprobación por un admin.
Control de acceso por modelo. Puedes restringir qué modelos ve cada usuario o grupo. Si tienes un modelo de 70B que consume recursos, puedes limitarlo a usuarios senior. Los usuarios junior solo ven modelos pequeños y rápidos.
Registro abierto vs. invitación. Por defecto, cualquiera con acceso a la URL puede registrarse (queda como Pending hasta que un admin apruebe). Puedes desactivar el registro abierto y crear cuentas manualmente desde el panel de admin.
Autenticación externa. Open WebUI soporta OAuth2/OIDC. Puedes conectar Google Workspace, Microsoft Entra ID (Azure AD), Keycloak o cualquier proveedor OIDC. Esto permite single sign-on para equipos corporativos.
RAG integrado: documentos y conocimiento local
Una de las funcionalidades más potentes de Open WebUI es el sistema RAG (Retrieval Augmented Generation) integrado. Te permite chatear con tus propios documentos sin enviarlos a ningún servicio externo.
Cómo funciona. Subes un documento (PDF, DOCX, TXT, CSV, código). Open WebUI lo divide en fragmentos, genera embeddings con un modelo local (por ejemplo, nomic-embed-text) y los almacena en una base de datos vectorial integrada (ChromaDB por defecto). Cuando haces una pregunta, el sistema busca los fragmentos relevantes y los inyecta como contexto en el prompt del modelo.
Configurar RAG paso a paso:
- Descarga un modelo de embeddings:
ollama pull nomic-embed-text. - En Open WebUI, ve a Settings > Documents.
- Selecciona
nomic-embed-textcomo modelo de embeddings. - Ajusta el tamaño del chunk (1000 caracteres es un buen punto de partida) y el overlap (200 caracteres).
- Sube documentos desde el icono de clip en el chat o desde la sección Documents del menú lateral.
Colecciones de documentos. Puedes organizar documentos en colecciones temáticas. Por ejemplo, una colección "Normativas" con el ENS, NIS2 e ISO 27001, y otra colección "Políticas internas" con los documentos de tu organización. En el chat, seleccionas qué colección usar como contexto.
Limitaciones del RAG. El RAG no es magia. Funciona bien para preguntas factuales sobre el contenido de los documentos. Funciona peor para preguntas que requieren sintetizar información dispersa en muchas páginas o razonar sobre el documento completo. Para documentos largos (más de 100 páginas), la calidad del chunking es crítica: chunks demasiado pequeños pierden contexto, chunks demasiado grandes diluyen la relevancia.
Búsqueda web integrada. Además de RAG local, puedes configurar búsqueda web. El modelo busca en internet cuando no tiene la respuesta en su conocimiento o en los documentos locales. Open WebUI soporta SearXNG (self-hosted, recomendado), Google Custom Search, Brave Search y DuckDuckGo.
Personalización avanzada
Open WebUI es altamente personalizable. Estas son las opciones más útiles.
System prompts globales. Define un system prompt que se aplique a todas las conversaciones por defecto. Útil para establecer el idioma ("Responde siempre en español"), el tono o restricciones específicas de tu organización.
Pipelines y funciones. Open WebUI soporta pipelines en Python que procesan las conversaciones antes o después del modelo. Algunos ejemplos:
- Filtro de contenido: bloquea temas o palabras específicas.
- Logging avanzado: registra todas las conversaciones en un sistema externo para auditoría.
- Tool calling: permite al modelo ejecutar funciones Python (consultar APIs, bases de datos, ejecutar código).
- Traducción automática: traduce la respuesta del modelo a otro idioma antes de mostrarla.
Temas y branding. Puedes personalizar colores, logo y nombre de la instancia. Útil si despliegas Open WebUI como herramienta interna y quieres que tenga la imagen corporativa de tu organización.
Docker Compose para producción. Para un despliegue más robusto, usa Docker Compose con volúmenes, red dedicada y variables de entorno en un archivo .env:
version: '3.8'
services:
open-webui:
image: ghcr.io/open-webui/open-webui:main
restart: always
ports:
- "3000:8080"
volumes:
- open-webui-data:/app/backend/data
environment:
- OLLAMA_BASE_URL=http://ollama:11434
- WEBUI_AUTH=true
- DEFAULT_USER_ROLE=pending
depends_on:
- ollama
ollama:
image: ollama/ollama:latest
restart: always
volumes:
- ollama-data:/root/.ollama
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: all
capabilities: [gpu]
volumes:
open-webui-data:
ollama-data:
Este compose levanta Open WebUI y Ollama juntos, con acceso a GPU para Ollama y persistencia de datos para ambos.
Alternativas: LM Studio, AnythingLLM y más
Open WebUI no es la única opción. Dependiendo de tu caso de uso, estas alternativas pueden ser más adecuadas.
LM Studio. Aplicación de escritorio para Windows, macOS y Linux. Descarga modelos, los ejecuta localmente y proporciona una interfaz de chat. Ventaja: no necesita Docker ni configuración técnica. Desventaja: solo para uso individual (sin gestión de usuarios), no se puede desplegar en servidor.
AnythingLLM. Similar a Open WebUI pero con un enfoque más empresarial. Incluye gestión de workspaces, RAG avanzado con múltiples estrategias de chunking y soporte para agentes. Disponible como aplicación de escritorio y como servidor Docker. Buena opción si el RAG es tu caso de uso principal.
text-generation-webui (oobabooga). Interfaz web con énfasis en la configuración técnica del modelo: cuantización, parámetros de sampleo, diferentes backends de inferencia (transformers, llama.cpp, ExLlamaV2, GPTQ). Para usuarios técnicos que necesitan control total sobre la inferencia.
Jan. Aplicación de escritorio open source, minimalista y enfocada en privacidad. Descarga y ejecuta modelos localmente sin configuración. Buena para usuarios no técnicos que quieren un ChatGPT privado sin complicaciones.
LibreChat. Fork mejorado de ChatGPT Clone. Soporta múltiples proveedores (OpenAI, Anthropic, Google, modelos locales). Tiene plugins, búsqueda web y gestión de usuarios. Es la alternativa más cercana a Open WebUI en funcionalidad.
| Herramienta | Multi-usuario | RAG | Docker | Escritorio |
|---|---|---|---|---|
| Open WebUI | Si | Si | Si | No |
| LM Studio | No | Limitado | No | Si |
| AnythingLLM | Si | Avanzado | Si | Si |
| Jan | No | No | No | Si |
| LibreChat | Si | Si | Si | No |
Mi recomendación: si necesitas una interfaz para un equipo, Open WebUI. Si eres un usuario individual que quiere la experiencia más simple posible, LM Studio o Jan. Si tu prioridad es RAG avanzado con workspaces, AnythingLLM.
Preguntas frecuentes
¿Open WebUI es gratis?
Sí. Open WebUI es open source bajo licencia MIT. No hay versión de pago, no hay limitaciones artificiales, no hay telemetría oculta. Lo instalas en tu hardware y es tuyo. Los únicos costes son el servidor donde lo ejecutes y la electricidad para correr los modelos. Para un equipo de 10 personas con un modelo de 8B parámetros, puedes funcionar con un servidor de 30-50 EUR/mes.
¿Puedo usar Open WebUI sin Ollama?
Sí. Open WebUI soporta cualquier API compatible con el estándar OpenAI. Puedes conectar vLLM, LM Studio (en modo servidor), text-generation-webui o APIs comerciales como OpenAI, Groq o Together. Ollama es la opción más sencilla para modelos locales, pero no es un requisito. Incluso puedes combinar Ollama local con APIs externas simultáneamente.
¿Cuánta RAM necesito para Open WebUI con Ollama?
Open WebUI en sí consume menos de 1 GB de RAM. El consumo depende del modelo que cargues en Ollama. Para modelos de 7-8B parámetros: al menos 8 GB de RAM (CPU) o 6 GB de VRAM (GPU). Para 13B: 16 GB de RAM o 10 GB VRAM. Para 27B: 32 GB de RAM o 20 GB VRAM. Para 70B: 48-64 GB de RAM o 40+ GB VRAM. En GPU siempre es más rápido, pero los modelos pequeños corren razonablemente bien en CPU.
¿Puedo compartir Open WebUI con mi equipo?
Sí, y esa es una de sus mayores fortalezas. Incluye gestión de usuarios integrada con roles (admin, usuario), control de acceso por modelo, historial de conversaciones por usuario y soporte para OAuth/OIDC. Es una solución completa para equipos sin necesidad de herramientas adicionales. El primer usuario que se registra se convierte en admin automáticamente.
Si quieres profundizar en IA local y modelos open-weight con ejercicios prácticos, consulta los planes de IAcademy.
Domina la IA local y open source
Los 3 primeros módulos de IAcademy son gratis. Incluyen instalación de modelos locales, prompting avanzado y automatización con IA.
Empieza gratisCurso completo: 108 módulos de IA aplicada
11 especializaciones por departamento. Dashboard con progreso. Quizzes y skills desbloqueables. Desde 399 EUR.