Red Hat y AWS se alían para abaratar y escalar la IA generativa en la nube

Red Hat ha anunciado una ampliación de su colaboración con Amazon Web Services (AWS) para llevar la inferencia de modelos de inteligencia artificial generativa a gran escala de forma más eficiente y económica. La compañía de software open source quiere que las empresas puedan ejecutar sus modelos de IA “en cualquier hardware”, y para ello se apoyará ahora también en los chips específicos de AWS: Inferentia2 y Trainium3.

El acuerdo se centra en un objetivo muy claro: que los CIO y responsables de infraestructura puedan desplegar IA generativa en producción sin que los costes de GPU se conviertan en un freno, ni en un experimento aislado en el laboratorio.

IA generativa sí, pero sin arruinar el presupuesto

La irrupción de la IA generativa ha multiplicado las necesidades de cómputo para inferencia. Cada chatbot corporativo, asistente interno o motor de búsqueda con IA necesita ejecutar miles o millones de peticiones diarias con baja latencia. Eso se traduce en facturas crecientes de infraestructura.

Red Hat y AWS citan previsiones de IDC que apuntan a que, para 2027, un 40 % de las organizaciones utilizarán silicon personalizado —incluidos procesadores ARM y chips específicos para IA— para optimizar rendimiento y costes. En ese contexto, la jugada de ambas compañías es clara: ofrecer una capa de inferencia optimizada sobre los aceleradores de AWS para que las empresas puedan aprovechar ese “silicio a medida” sin reescribir todo su stack.

Red Hat AI Inference Server sobre Inferentia2 y Trainium3

El primer pilar del acuerdo es Red Hat AI Inference Server, la plataforma de inferencia de la compañía basada en vLLM, que se optimizará para ejecutarse sobre los chips de IA de AWS: Inferentia2 y Trainium3.

La promesa es doble:

  • Capa común de inferencia para “cualquier modelo de IA generativa”, independientemente del hardware.
  • Mejor precio-rendimiento, con Red Hat citando mejoras del 30–40 % frente a instancias EC2 con GPU comparables para despliegues de producción.

En la práctica, esto significa que una empresa que hoy ejecute sus modelos en GPU puede migrar parte o todo el tráfico de inferencia a Inferentia2 o Trainium3 sin cambiar el resto de su arquitectura, siempre que se apoye en esta capa de Red Hat.

OpenShift, Neuron y vLLM: el “pegamento” técnico

El segundo bloque del anuncio está en la integración con el ecosistema de Kubernetes y automatización de Red Hat:

  • Operador AWS Neuron para OpenShift: Red Hat ha trabajado con AWS para desarrollar un operador Neuron para Red Hat OpenShift, OpenShift AI y Red Hat OpenShift Service on AWS. Este operador simplifica el uso de los aceleradores de AWS desde los clústeres de Kubernetes gestionados por Red Hat, evitando despliegues manuales complejos.
  • Ansible y orquestación en AWS: la compañía ha lanzado también la colección amazon.ai Certified Ansible Collection para Red Hat Ansible Automation Platform, con el objetivo de orquestar servicios de IA en AWS de forma automatizada, desde el aprovisionamiento hasta la operación diaria.
  • Contribución a vLLM upstream: tanto Red Hat como AWS están colaborando para optimizar un plugin de chips de IA de AWS dentro del proyecto vLLM, contribuyendo esas mejoras a la comunidad. vLLM es la base de llm-d, un proyecto open source para inferencia a escala que Red Hat ya integra como funcionalidad comercial en OpenShift AI 3.

El mensaje que Red Hat quiere enviar es que su estrategia sigue siendo “cualquier modelo, en cualquier hardware”, pero ahora con un énfasis claro en hacer rentable la inferencia masiva sobre la infraestructura de AWS.

Menos pruebas, más producción

Otra clave de este movimiento es el intento de ayudar a las empresas a salir de la fase eterna de “prueba de concepto” con IA generativa. Como apunta Techaisle, citado por Red Hat, la prioridad está pasando de la pura experimentación a la operacionalización sostenible y gobernada de la IA en producción.

La combinación de:

  • plataforma de contenedores (OpenShift),
  • capa de inferencia (Red Hat AI Inference Server con vLLM),
  • aceleradores optimizados (Inferentia2/Trainium3),
  • y automatización (Ansible),

busca precisamente eso: un camino soportado de extremo a extremo para desplegar, escalar y gobernar modelos en entornos híbridos y multicloud basados en AWS.

Disponibilidad y hoja de ruta

Según Red Hat, el operador comunitario AWS Neuron ya está disponible en el OperatorHub de Red Hat OpenShift para clientes que usan OpenShift o Red Hat OpenShift Service on AWS.

El soporte de Red Hat AI Inference Server para los chips de IA de AWS está previsto inicialmente como developer preview en enero de 2026, lo que permitirá a los equipos técnicos empezar a probar la integración con sus propios modelos antes de que la funcionalidad madure hacia producción.

Mientras tanto, Red Hat aprovecha su presencia en AWS re:Invent 2025 para reforzar su mensaje de “open hybrid cloud” aplicado a la era de la IA: mismos principios de software libre y portabilidad, pero ahora con el foco puesto en que la inferencia no dispare el coste por consulta.


Preguntas frecuentes sobre la alianza Red Hat – AWS para IA generativa

¿Qué gana una empresa usando Red Hat AI Inference Server con los chips de IA de AWS?
Principalmente, mejor precio-rendimiento para la inferencia de modelos generativos a gran escala. La capa de Red Hat permite aprovechar Inferentia2 y Trainium3 con una API común, manteniendo la flexibilidad de usar distintos modelos sin encadenarse a una sola arquitectura de hardware.

¿En qué se diferencia esta propuesta de usar directamente GPU en AWS?
La promesa de Red Hat y AWS es conseguir hasta un 30–40 % de mejor precio-rendimiento frente a instancias EC2 con GPU comparables, gracias a chips especializados y a una pila de software optimizada (vLLM, Neuron, OpenShift). Para cargas con muchas peticiones de inferencia, ese diferencial puede traducirse en ahorros significativos.

¿Es necesario usar Red Hat OpenShift para beneficiarse de esta colaboración?
No siempre, pero OpenShift simplifica mucho la historia: el operador AWS Neuron para OpenShift y OpenShift AI facilita el despliegue automatizado, el escalado y la observabilidad de los modelos sobre los aceleradores de AWS. Sin OpenShift se puede usar parte de la tecnología, pero se pierde la experiencia integrada de plataforma.

¿Esta estrategia está pensada solo para la nube pública de AWS?
El anuncio se centra en AWS, sus chips de IA y los servicios gestionados alrededor de OpenShift en esa nube. Sin embargo, Red Hat mantiene su discurso de nube híbrida: la misma lógica de plataforma y de inferencia puede extenderse a otros entornos, aunque en esos casos no se disponga de los chips específicos de AWS.

vía: redhat

encuentra artículos

newsletter

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

LO ÚLTIMO

×