La pregunta que más se repite en los comités de tecnología en 2025 ya no es “qué modelo usar”, sino “dónde ejecutar la IA”. Entre latencias, costes por token, cumplimiento normativo y fugas de datos, cada vez más organizaciones exploran ejecución local de modelos de lenguaje con un respaldo cloud elástico para picos y nuevos casos de uso. En ese punto intermedio se sitúa la propuesta de SoaxNG —la capa de orquestación de OASIX Cloud (Grupo Aire) basada en OpenStack— para desplegar Ollama con Open WebUI, combinando privacidad in situ y escalabilidad.
El objetivo: ecosistemas híbridos donde los datos sensibles permanecen bajo control directo, mientras la infraestructura en la nube aporta capacidad y resiliencia cuando el negocio lo exige.
Qué aporta Ollama en entornos SoaxNG
Ollama se ha convertido en el “runtime local” de referencia para modelos GGUF (formato cuantizado que reduce memoria y coste de inferencia) y destaca por su simplicidad operativa: descarga, ejecuta y conversa. En un contexto empresarial, esa sencillez se potencia al integrarse con SoaxNG, que proporciona la orquestación, el aislamiento y el ciclo de vida de los contenedores.
¿Por qué sumarle Open WebUI?
- Curva de adopción. Open WebUI ofrece una interfaz visual que elimina la dependencia de la línea de comandos. Es clave para extender la IA más allá del equipo técnico: legal, marketing, atención al cliente o operaciones pueden probar, iterar y compartir sin abrir una terminal.
- Colaboración. Historial de conversaciones, plantillas de prompt, carga de documentos (PDF/imágenes) con OCR y ajustes por modelo (temperatura, top-p, tamaño de contexto) ayudan a estandarizar flujos.
- Extensibilidad. Desde la propia UI se descargan/gestionan modelos, se configuran puertos/IP del servidor y se habilitan módulos de embeddings o visión si están disponibles.
Arquitectura de despliegue: contenedores, perfiles y persistencia
El patrón de despliegue recomendado es contenerizado:
- Aislamiento de recursos. Cada instancia de Ollama corre en un contenedor independiente con CPU/GPU asignadas de forma granular. SoaxNG lo gestiona con su motor de orquestación sobre OpenStack, permitiendo multi-tenant real y separación entre desarrollo y producción.
- Escalabilidad. SoaxNG autoajusta recursos y réplicas en picos de inferencia. Para modelos más pesados, se asignan perfiles con GPU y memoria acordes al caso.
- Persistencia. Los volúmenes se conectan a los sistemas Flash Scale Premium de OASIX, de forma que modelos GGUF > 100 GB se almacenan y sirven sin cuellos de botella.
Stack típico (vía Docker Compose, con perfiles CPU/GPU):
- Ollama Core – runtime para modelos GGUF.
- Open WebUI – interfaz unificada de gestión y chat.
- Nginx – reverse proxy con TLS y balanceo.
Modelos soportados y perfiles de recursos
SoaxNG ofrece perfiles predefinidos para acelerar la puesta en marcha con las principales familias de modelos:
Modelo | vCPU mín. | RAM mín. | Almacenamiento | Caso de uso principal |
---|---|---|---|---|
DeepSeek-R1 | 8 | 32 GB | 150 GB | Razonamiento y análisis |
Llama 3.2 | 4 | 16 GB | 45 GB | Generación de texto general |
CodeLlama-70B | 12 | 64 GB | 85 GB | Asistencia al desarrollo |
LLaVA-1.6 | 6 | 24 GB | 35 GB | Visión y documentación |
Nota: los requisitos dependen de tamaño/cuantización, contexto y throughput deseado. El catálogo de modelos GGUF crece a ritmo semanal; lo crítico en empresa es estandarizar perfiles por nivel de servicio (latencia, concurrencia) y sensibilidad de datos.
Casos de uso que ya tienen retorno
1) Ciberseguridad automatizada (SOC)
- Playbooks automáticos: generación de procedimientos de respuesta (IR) ante nuevos CVE, mapeados a MITRE ATT&CK.
- Forense acelerado: ingestión de 1 TB/día de logs para buscar patrones APT y correlaciones.
- Simulación: escenarios de ataque realistas para entrenar red teams y evaluar controles.
2) Automatización de procesos
- Procesamiento documental: extracción de cláusulas en contratos (visión + texto).
- Monitoreo regulatorio: seguimiento de ENISA/RGPD y cambios normativos, con alertas y resúmenes.
- Documentación técnica: generación de manuales y procedimientos con validación por equipos transversales.
3) DevOps inteligente
- Código seguro: análisis estático/dinámico con sugerencias de corrección.
- Optimización: recomendaciones de escalado según telemetría y costes.
- Gestión de incidencias: clasificación de tickets y RCA preliminar para recortar MTTR.
Seguridad y gobernanza: Zero-Trust y cumplimiento
La adopción de IA local no se sostiene sin una arquitectura de confianza mínima y controles alineados con normas europeas.
Zero-Trust “de fábrica”
- Cifrado homomórfico en flujos de inferencia con datos sensibles (salud/finanzas).
- NVIDIA Confidential Computing: TEE de GPU para aislar modelos y vectores de ataque.
- RBAC granular: permisos por modelo/prompt/output y trazabilidad.
Cumplimiento
- ENS Alto para administraciones públicas en España.
- RGPD – Art. 35: DPIA predefinida para tratamientos con datos personales.
- ISO 27001/27017: gestión segura y controles en nube.
- Auditorías periódicas con modelos de compliance para detectar desviaciones.
Open WebUI: menú en detalle para equipos no técnicos
- Inicio y autenticación. Alta del primer administrador con control de base de datos y configuración. Soporta SSO corporativo.
- Selección de modelos. Catálogo de modelos descargados con opción de añadir/borrar y probar opciones sin salir de la UI.
- Chat principal. Área central con conversaciones múltiples e historial; útil para playbooks, Q&A interno y pruebas guiadas.
- Conexión y parámetros. IP/puerto del servidor, tamaño de contexto, temperatura, top-p, etc.
- Audio e imágenes. Entrada por micrófono, análisis y/o generación de imágenes (si el modelo lo soporta).
- OCR y documentos. Subida de PDF/imágenes para extraer texto y consultarlo en el contexto.
- Plantillas de prompt. Biblioteca reutilizable para estandarizar tareas.
- Búsqueda en Internet. Disponible según configuración; útil para casos donde la actualidad importa.
Por qué “local + cloud” es una decisión estratégica
- Soberanía y privacidad. La IA local evita enviar datos sensibles a terceros. Con SoaxNG, se mantiene el control en on-prem o cloud privada, y se extiende a OASIX Cloud cuando se necesita más músculo.
- Latencia y costes. Reducir saltos de red recorta latencias y costes por llamada. En cargas recurrentes (RAG interno, clasificación, extracción), el modelo residente suele ganar.
- Cumplimiento. Mantener datos y registros en jurisdicción UE simplifica RGPD, ENS y auditorías (ISO).
- Escalabilidad. El cloud cubre picos y permite experimentar sin comprometer los datos. La clave es el control de perímetro y la observabilidad.
Buenas prácticas para ponerlo en producción
- Empezar por un caso acotado (p. ej., asistente interno sobre FAQs y políticas, o procesamiento de un tipo documental).
- Definir perfiles de GPU/CPU y SLOs (latencia, throughput, ventana de contexto) por modelo.
- Trazabilidad: activar logs de prompts/outputs con protección de datos y retenciones claras.
- Human-in-the-loop: establecer revisión en tareas críticas (legal, compliance, cliente).
- Evaluar periódicamente (calidad, sesgos, deriva), con datasets de validación y métricas de exactitud y utilidad.
- Gestión de secretos y rotación: credenciales, claves y acceso a stores internos.
- Plan de continuidad: rollbacks, snapshots de modelos, restauración de volúmenes y recuperación ante incidentes.
Adopción en España: una vía para la soberanía digital
Para organizaciones españolas, la dupla Ollama + SoaxNG abre una vía pragmática hacia la IA generativa sin renunciar a soberanía: instalación simplificada, gestión visual y controles de seguridad con certificaciones ENS/ISO que facilitan compras públicas y auditorías. El enfoque híbrido —local donde hay que proteger, cloud donde conviene crecer— es, a día de hoy, el más realista para desplegar valor rápido.
Conclusión
La convergencia de IA local y cloud ya no es un debate filosófico: es una arquitectura operativa. Ollama reduce la fricción de ejecutar modelos cerca del dato; Open WebUI acerca la IA a toda la organización; SoaxNG pone el orden (orquestación, perfiles, persistencia, seguridad) que exige un entorno empresarial. Si el objetivo es ganar velocidad sin perder control, es un punto de partida sólido.
¿Siguiente paso? Elegir un caso de uso piloto, definir métricas de éxito y medir. La ventaja no la dará el modelo más grande, sino la capacidad de convertirlo en procesos repetibles que mejoren negocio y cumplimiento a la vez.
Preguntas frecuentes
¿Qué ventajas tiene ejecutar LLMs con Ollama respecto a consumir un servicio externo?
Menos latencia, costes más predecibles y control del dato. Es clave cuando hay información sensible, requisitos regulatorios o necesidad de personalizar modelos sin exponer prompts y outputs a terceros.
¿Puedo empezar sin GPU?
Sí. Muchos modelos GGUF funcionan en CPU para prototipos y casos ligeros. Para concurrencia y contextos amplios, una GPU acelera de forma notable. SoaxNG permite perfiles por caso.
¿Cómo se gestiona la seguridad y el cumplimiento?
Con Zero-Trust (RBAC granular, aislamiento, TEE de GPU), cifrado y artefactos de cumplimiento (ENS, RGPD con DPIA, ISO 27001/27017). La trazabilidad de prompts y outputs facilita auditorías.
¿Qué modelos son recomendables para empezar?
Depende del uso: Llama 3.x para asistentes y texto general, DeepSeek-R1 para razonamiento, CodeLlama para desarrollo y LLaVA para documentos/visión. La clave es ajustar cuantización y contexto al SLO que se busca.