Red Hat ha anunciado Red Hat AI 3, una evolución mayor de su plataforma empresarial de inteligencia artificial que integra Red Hat AI Inference Server, RHEL AI y OpenShift AI para resolver el gran cuello de botella de 2025: operativizar la inferencia a escala (la fase del “hacer”) y pasar de pruebas de concepto a producción sin rehacer la infraestructura. La propuesta pivota sobre tres ideas: inferencia distribuida nativa en Kubernetes (llm-d), experiencia unificada de plataforma (MaaS interno, AI Hub, Gen AI Studio) y cimientos para IA agéntica con APIs y estándares abiertos.
El movimiento llega cuando el mercado gira del entrenamiento a la inferencia masiva en tiempo real y a los agentes; y cuando los CIOs buscan recortar latencia, costes por token y complejidad sin renunciar a privacidad ni a libertad de elección de hardware. De fondo está una realidad incómoda: según el proyecto NANDA del MIT, en torno al 95 % de las organizaciones no refleja todavía retornos medibles pese a un gasto empresarial acumulado de 40.000 millones de dólares. Red Hat AI 3 intenta cerrar esa brecha con una plataforma abierta y multivendor que soporte cualquier modelo en cualquier acelerador, desde centro de datos a nube pública, entornos soberanos y edge.
De entrenar a “hacer”: llm-d convierte vLLM en un servicio distribuido, nativo de Kubernetes
La novedad técnica más llamativa es la disponibilidad general de llm-d en OpenShift AI 3.0. Sobre la base del motor vLLM, llm-d reimagina cómo se sirven los LLM en Kubernetes:
- Inferencia distribuida e inteligente: orquestración con Kubernetes y Gateway API Inference Extension, priorización inference-aware, serving desagregado y programación que tiene en cuenta la variabilidad de carga (picos de prefill, decoding y ventanas de contexto).
- Piezas abiertas para rendimiento: integración con NVIDIA Dynamo (NIXL) para transferencia KV, y con DeepEP para comunicación Mixture-of-Experts (MoE); pensado para modelos enormes y cargas con alto fan-out.
- “Well-lit Paths”: rutas prescriptivas que estandarizan despliegue y operación para que los equipos no monten stacks frágiles de herramientas dispares.
- Aceleradores cruzados: NVIDIA y AMD de salida, con el objetivo de maximizar el aprovechamiento de hardware ya comprado.
En términos prácticos, llm-d toma lo mejor de vLLM (alto rendimiento single-node) y lo convierte en un servicio de inferencia coherente y escalable, con monitorización, fiabilidad y planificación de capacidad orientadas a ROI. El mensaje para la dirección es claro: predecibilidad y control sobre costes y rendimiento cuando los tokens se cuentan por millones.
Una plataforma unificada para colaborar (MaaS interno, AI Hub y Gen AI Studio)
Red Hat AI 3 empaqueta una experiencia de plataforma pensada para que ingeniería de plataforma y equipos de IA trabajen sobre un mismo plano:
- Model as a Service (MaaS) interno: TI puede operar como proveedor de modelos para la organización, sirviendo modelos comunes desde un punto central con acceso bajo demanda para aplicaciones y desarrolladores. Permite gestión de costes, reutilización y cubre casos que no pueden salir a servicios públicos por privacidad o soberanía.
- AI Hub: un hub para explorar, desplegar y gestionar activos de IA: catálogo curado de modelos (validados/optimizados), registro para ciclo de vida y un entorno de despliegue con configuración y observabilidad.
- Gen AI Studio: entorno hands-on para prototipar: playground sin estado para probar prompts, ajustar parámetros, crear chats o RAG, y un endpoint de activos para descubrir modelos y servidores MCP (Model Context Protocol), clave cuando los modelos necesitan llamar herramientas externas.
Junto a ese armazón, Red Hat añade un conjunto de modelos validados (p. ej., gpt-oss, DeepSeek-R1, Whisper para voz a texto, Voxtral Mini para agentes con voz) que facilita empezar sin cazar artefactos por Internet ni pelear con compatibilidades.
Preparando el terreno para la IA agéntica (Llama Stack, MCP y personalización modular)
La segunda derivada es agéntica. Red Hat OpenShift AI 3.0 introduce:
- Capa de API unificada basada en Llama Stack: alinea el desarrollo con protocolos compatibles con OpenAI y reduce la fricción entre herramientas.
- Adopción temprana de MCP (Model Context Protocol): un estándar emergente para que los modelos interactúen con herramientas externas de forma segura y estandarizada, pieza básica para agentes que componen acciones.
- Kit modular de personalización: construido sobre InstructLab, con librerías Python para procesamiento de datos (p. ej., Docling para convertir documentos no estructurados en formato “legible por IA”), generación de datos sintéticos, fine-tuning y un Evaluation Hub integrado para medir y validar resultados. La idea es que el cliente pueda “afinar con sus datos” con control y trazabilidad.
Si 2025 arranca la fiebre de agentes, 2026 va a exigir infraestructura de inferencia capaz de soportar flujos autónomos complejos. Red Hat AI 3 plantea su plataforma como el lugar donde ese software se desarrolla, gobierna y escala.
Por qué esto importa a CIOs y equipos de plataforma
- Del silo al plano común. La inferencia deja de ser un servicio puntual en VM para ser una capacidad compartida en el cluster: políticas, cuotas, telemetría y SLOs comparables a cualquier otro workload.
- Acelerador-agnóstico. La promesa de “cualquier modelo, cualquier acelerador” se traduce en menos lock-in y más vida útil a inversiones en Instinct (AMD) o NVIDIA, con stacks abiertos como ROCm.
- Coste y latencia. El serving desagregado, la programación inference-aware y el uso de bibliotecas abiertas de alto rendimiento empujan el coste por token hacia abajo y estabilizan la latencia.
- Cumplimiento y soberanía. La plataforma se despliega en datacenter, cloud pública, entornos soberanos y edge, alineando privacidad y jurisdicción con la realidad de cada sector.
- Estándares. Apostar por Kubernetes, vLLM, Gateway API, MCP y Llama Stack reduce el riesgo de construir en islas tecnológicas.
Qué dicen los socios (y qué implica)
- AMD subraya la combinación de EPYC + Instinct + ROCm, alineada con el discurso multivendor de Red Hat: no todo será NVIDIA, especialmente en cargas IO-bound o donde el TCO manda.
- NVIDIA pone foco en la inferencia acelerada y celebra la compatibilidad con Dynamo/NIXL para KV transfer y con bibliotecas que favorecen MoE.
- Clientes como ARSAT (infraestructura de conectividad en Argentina) destacan dos puntos: soberanía del dato y tiempo a producción (un caso que pasó de necesidad a producción en 45 días), ilustrando que “plataforma” no es solo despliegue, sino ciclo de vida completo.
- Analistas (IDC) marcan 2026 como punto de inflexión: la métrica será resultado repetible con inferencia eficiente. La “milla extra” la hará quien unifique orquestación de cargas cada vez más sofisticadas en cloud híbrida.
Qué mirar en las próximas semanas si evalúa Red Hat AI 3
- Benchmarks y playbooks de llm-d sobre OpenShift AI 3.0: latency SLO, throughput por tipo de petición (prefill/decoding), coste por 1.000 tokens y KV cache compartida entre sesiones.
- Compatibilidad con su parque de aceleradores (NVIDIA/AMD), drivers y versiones de ROCm/CUDA, así como la observabilidad integrada (métricas de cola, memoria, fragmentación).
- Catálogo del AI Hub y pipeline de validación (calidad, sesgos, guardrails) para entornos regulados.
- Integración MCP con herramientas internas (buscadores documentales, APIs, RPA) y seguridad en el uso de herramientas por agentes.
- Gobierno de modelos: ciclo completo (registro → despliegue → rollbacks → A/B → deprecation) y trazabilidad para auditorías.
Un apunte crítico: el valor llega cuando la inferencia se vuelve “aburrida”
El anuncio acierta en el ángulo: la inferencia —no el entrenamiento heroico— es lo que paga facturas. El reto es que ese “hacer” sea predecible, observado, optimiz-able y repetible. Si Red Hat AI 3 consigue que servir modelos en Kubernetes sea tan rutinario como desplegar un microservicio, la conversación pasará de “¿qué modelo?” a “qué SLO negocio necesito y cuánto cuesta”. Ahí es donde se recupera el ROI que el NANDA del MIT echa en falta.
Conclusión
Red Hat AI 3 es, ante todo, una apuesta por la normalización de la IA en la empresa: llm-d para inferencia distribuida con vLLM en Kubernetes, una plataforma unificada que fusiona catálogo, servicio y studio, y una apertura decidida (Llama Stack, MCP, ROCm, Gateway API) para que modelos y agentes vivan en cualquier infraestructura y con cualquier acelerador. El reto de 2025–2026 no es “hacer más demos”: es convertir esa capacidad en SLA, SLO y costes por token que cierren las cuentas. La dirección, al menos, apunta en esa dirección.
Preguntas frecuentes
¿Qué diferencia a llm-d de “usar vLLM en un pod”
llm-d toma vLLM y lo eleva a un sistema de serving distribuido integrado en Kubernetes: programación inference-aware, desagregación de serving, compatibilidad con Gateway API, KV transfer acelerado y bibliotecas de MoE; además de “Well-lit Paths” (rutas prescriptivas) para desplegar a escala con fiabilidad.
¿Cómo encaja el Modelo-como-Servicio interno frente a usar APIs externas?
El MaaS interno permite centralizar modelos, controlar costes, reutilizar activos, garantizar privacidad y cumplir soberanía. Las APIs externas siguen teniendo sentido para picos o casos no críticos, pero el corazón de negocio suele requerir datos propios y TCO predecible.
¿Qué aceleradores soporta Red Hat AI 3?
La plataforma es multivendor y ofrece soporte cruzado para NVIDIA y AMD, con stacks abiertos (ROCm, bibliotecas como Dynamo/NIXL para KV). El objetivo es maximizar el rendimiento por vatio del hardware ya adquirido.
¿Qué aporta MCP y la capa basada en Llama Stack a los agentes?
MCP estandariza cómo los modelos usan herramientas externas, clave para agentes componibles y seguros. La API unificada basada en Llama Stack alinea protocolos con el ecosistema (incluidos compatibles con OpenAI), reduciendo fricción de integración y portabilidad entre proveedores y entornos.
vía: redhat