Red Hat y Rebellions llevan las NPUs a OpenShift AI para impulsar una inferencia más eficiente en la empresa

La carrera por desplegar Inteligencia Artificial en producción ya no se decide solo por el modelo elegido. Cada vez más, la conversación se desplaza hacia la infraestructura: cuánto cuesta servir un modelo, cuánta energía consume, cómo se opera a escala y qué nivel de control y cumplimiento normativo puede garantizar una organización. En ese escenario, Red Hat y la firma surcoreana Rebellions han anunciado una nueva propuesta: Red Hat OpenShift AI “powered by Rebellions NPUs”, una plataforma validada de extremo a extremo que combina el software de inferencia de Red Hat con unidades de procesamiento neuronal (NPUs) diseñadas para ejecutar cargas de trabajo de IA con mayor eficiencia energética.

El anuncio, comunicado el 10 de diciembre de 2025 desde Seúl, se presenta como un paso más en la estrategia de Red Hat de ofrecer “cualquier modelo, cualquier acelerador, cualquier nube”. La idea es clara: ampliar el abanico de arquitecturas más allá de los despliegues centrados únicamente en GPU, en un momento en el que los proyectos de IA corporativa pasan del laboratorio al negocio y empiezan a chocar con límites muy terrenales: coste, complejidad operativa, disponibilidad de hardware y requisitos regulatorios.

Por qué ahora: de la experimentación al “servir IA” en serio

Durante el último año, muchas organizaciones han descubierto que entrenar es solo una parte del reto. El grueso del trabajo —y del gasto— llega cuando toca servir modelos en aplicaciones reales: asistentes internos, automatización de procesos, análisis documental, atención al cliente o búsqueda semántica en repositorios corporativos. Esa fase, la de la inferencia, exige estabilidad, previsibilidad y una eficiencia que los entornos GPU no siempre logran de manera óptima si el objetivo es escalar con costes controlados.

Red Hat y Rebellions enmarcan su colaboración precisamente ahí: en la necesidad de “industrializar” la inferencia. Su argumento es que los entornos GPU, por sí solos, pueden resultar insuficientes cuando se trata de encontrar el equilibrio entre rendimiento y eficiencia a escala, especialmente en centros de datos donde la potencia disponible por rack, la refrigeración y la factura eléctrica se han convertido en variables de primer orden.

Qué aporta una NPU: eficiencia energética con foco en inferencia

Las NPUs no son una novedad conceptual, pero sí están ganando protagonismo con la expansión de la IA generativa. Rebellions defiende que su arquitectura está optimizada para inferencia, y que eso se traduce en mejor eficiencia energética frente a GPUs “tradicionales”, con impacto directo en costes de despliegue y operación tanto a nivel de servidor como de rack.

El matiz es importante: la discusión ya no gira únicamente en torno a “cuántos tokens por segundo” puede generar un sistema, sino en cuánto cuesta sostener ese rendimiento de forma constante, con garantías, y sin disparar el consumo. En términos empresariales, esa eficiencia se convierte en una palanca para pasar de pilotos a despliegues de amplio alcance, sobre todo cuando se necesitan múltiples instancias, redundancia y capacidad de crecimiento.

Una propuesta “validada” de hardware a model serving

Uno de los puntos que más subrayan ambas compañías es que no se trata de una integración parcial, sino de una solución integrada y validada “de hardware a model serving”. La propuesta combina:

  • Red Hat OpenShift AI, como plataforma base para desarrollar, desplegar y operar cargas de IA en Kubernetes.
  • La pila de software de Rebellions, ejecutándose de forma nativa sobre OpenShift AI para reducir fricción y acelerar el despliegue.
  • Un componente clave para la operación: el Rebellions NPU Operator, certificado para Red Hat OpenShift, que busca que la gestión de las NPUs sea tan natural como la de las GPUs dentro del clúster.

La promesa de fondo es reducir el coste oculto de la IA: no solo el hardware, sino el tiempo de integración, las capas intermedias y la complejidad de operar aceleradores distintos en entornos híbridos. Red Hat y Rebellions plantean que, con esta validación conjunta, la empresa puede desplegar inferencia con mayor rapidez y con soporte alineado con estándares de plataforma.

vLLM y el salto a la inferencia distribuida

En el plano técnico, la propuesta menciona el uso de vLLM —un motor de inferencia popular en el ecosistema de modelos de lenguaje— integrado con soluciones de NPUs a escala de rack para procesamiento distribuido. Con ello, la plataforma se orienta a escenarios donde no basta con ejecutar un modelo en un único servidor, sino que hace falta escalar horizontalmente para atender picos de demanda o servir múltiples modelos y versiones en paralelo.

Este enfoque es coherente con cómo se están desplegando los LLM en la empresa: no como una “demo” aislada, sino como un servicio con requisitos de latencia, disponibilidad y capacidad de crecimiento progresivo. La colaboración describe un objetivo concreto: alto rendimiento, baja latencia y mejor eficiencia energética en inferencia, con un modelo operativo que encaje en los flujos habituales de Kubernetes.

Cumplimiento, soberanía del dato y despliegue donde vive la información

Más allá del rendimiento, Red Hat insiste en dos pilares que pesan mucho en entornos regulados: seguridad y cumplimiento. La solución se presenta como adecuada para organizaciones que necesitan mantener los datos on-premise y cumplir con requisitos regulatorios y de soberanía del dato. En la práctica, esto apunta a sectores como banca, salud, industria o administración pública, donde mover información sensible a servicios externos no siempre es viable.

La propuesta se apoya en la capacidad de OpenShift para operar en escenarios on-premise y multicloud, con una integración de operador que pretende simplificar el ciclo de vida: aprovisionar recursos, exponerlos al clúster, monitorizar y mantener consistencia operativa a medida que se escala desde el core al edge.

Una alternativa al “todo GPU” que busca normalizar la heterogeneidad

El trasfondo del anuncio es una visión de mercado: la IA empresarial no se va a desplegar con una única arquitectura dominante. Habrá GPUs, NPUs y otros aceleradores conviviendo en función de la carga de trabajo, el presupuesto, la energía disponible y la estrategia de cada organización. Red Hat intenta posicionarse como la capa que normaliza esa heterogeneidad, evitando pilas propietarias cerradas.

En esa línea, Brian Stevens, CTO de IA en Red Hat, enmarca la colaboración como una forma de avanzar hacia una IA empresarial con más elección y menos dependencia de stacks monolíticos. Desde Rebellions, su CEO Sung Hyun Park presenta el acuerdo como una respuesta práctica a necesidades actuales: rendimiento, eficiencia de costes y soberanía del dato, con una plataforma completa “de principio a fin” frente a enfoques fragmentados.

Rebellions: un actor surcoreano centrado en chips de inferencia

Rebellions se describe en el ecosistema de Red Hat como un fabricante de chips de IA con base en Corea del Sur, especializado en aceleración para inferencia. La compañía ha ido ganando visibilidad en un momento en el que la eficiencia energética y la disponibilidad de alternativas al mundo GPU se han convertido en una conversación estratégica para centros de datos y proveedores de servicios.

Preguntas frecuentes

¿Qué ventajas tiene una NPU frente a una GPU para cargas de inferencia de LLM en empresa?
Las NPUs suelen diseñarse con foco específico en inferencia, buscando maximizar eficiencia por vatio y reducir costes operativos a escala. El atractivo aparece cuando se sirven modelos de forma sostenida y el consumo del centro de datos pasa a ser un factor decisivo.

¿Qué significa que el Rebellions NPU Operator esté certificado para Red Hat OpenShift?
Implica que el operador ha pasado el proceso de certificación del ecosistema de Red Hat y está pensado para integrar el hardware NPU en el clúster de forma soportada: aprovisionamiento, exposición de recursos, y operación más uniforme junto a otras cargas.

¿Se puede desplegar OpenShift AI con NPUs en entornos on-premise por requisitos de soberanía del dato?
Sí. La propuesta se plantea precisamente para organizaciones que necesitan mantener datos y modelos en sus propias instalaciones o en nubes privadas/multicloud, alineando seguridad y cumplimiento con despliegues donde vive la información.

¿Qué papel juega vLLM en esta integración con NPUs?
vLLM actúa como motor de inferencia para modelos de lenguaje y, en este caso, se menciona como parte de un enfoque de inferencia distribuida a escala de rack, orientado a alto rendimiento y baja latencia con escalado horizontal.

vía: redhat

encuentra artículos

newsletter

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

LO ÚLTIMO

×