Red Hat lleva la inferencia de IA distribuida a las cargas de trabajo productivas de IA con Red Hat AI 3

Red Hat, referente global en soluciones de software abierto, presentó Red Hat AI 3, una actualización de gran calado de su plataforma de inteligencia artificial para empresas. La nueva versión une las novedades de Red Hat AI Inference Server, Red Hat Enterprise Linux AI (RHEL AI) y Red Hat OpenShift AI, con el objetivo de reducir la complejidad de la inferencia de alto rendimiento a gran escala. Con ello, las organizaciones pueden pasar con más rapidez de las pruebas de concepto a entornos productivos y trabajar mejor en torno a aplicaciones impulsadas por IA.

Conforme las compañías dejan atrás la fase puramente experimental, se topan con retos notables: privacidad de los datos, control del gasto y gestión de múltiples modelos. El informe The GenAI Divide: State of AI in Business, del proyecto NANDA del MIT, retrata este escenario: en torno al 95 % de las organizaciones no consigue retornos financieros medibles, pese a inversiones empresariales que rondan los 40.000 millones de dólares.

Red Hat AI 3 apunta directamente a esas dificultades ofreciendo una experiencia unificada y coherente para que CIOs y equipos de TI aprovechen mejor las inversiones en aceleración de cómputo. La plataforma permite escalar y orquestar con agilidad cargas de IA en entornos híbridos y multicloud, a la vez que impulsa la colaboración entre equipos que trabajan con casos de última generación —como agentes—, todo dentro de un mismo plano de operación. Basada en estándares abiertos, Red Hat AI 3 acompaña a las organizaciones en cualquier etapa de adopción, con soporte para cualquier modelo en cualquier acelerador de hardware, desde el centro de datos hasta la nube pública y entornos de IA soberana, llegando incluso al borde de la red más alejado.

Del entrenamiento a la acción, la transición hacia la inferencia de IA empresarial

A medida que las organizaciones llevan sus iniciativas de IA a producción, el enfoque se desplaza del entrenamiento y ajuste de modelos a la inferencia, la fase de «ejecución» de la IA empresarial. Red Hat AI 3 pone el acento en una inferencia escalable y rentable, basándose en el gran éxito de los proyectos comunitarios vLLM y llm-d, y las capacidades de optimización de modelos de Red Hat para ofrecer para ofrecer un servicio de modelos de lenguaje de gran tamaño (LLM) de calidad de producción.

Para ayudar a los CIOs a aprovechar al máximo su aceleración de hardware de alto valor, Red Hat OpenShift AI 3.0 presenta la disponibilidad general de llm-d, que reimagina la forma en que los LLM se ejecutan de forma nativa en Kubernetes. llm-d permite la inferencia distribuida inteligente, aprovechando el valor probado de la orquestación de Kubernetes y el rendimiento de vLLM, combinado con tecnologías clave de código abierto como Kubernetes Gateway API Inference Extension, la biblioteca de transferencia de datos de baja latencia NVIDIA Dynamo (NIXL) y la biblioteca de comunicación DeepEP Mixture of Experts (MoE), lo que permite a las organizaciones:

  • Reducir costes y optimizar los tiempos de respuesta mediante una programación de modelos inteligente y optimizada para la inferencia, junto con un servicio desagregado.
  • Ofrecer simplicidad operativa y máxima fiabilidad a través de «Rutas bien iluminadas» prescriptivas que agilizan el despliegue de modelos a gran escala en Kubernetes.
  • Maximizar la flexibilidad gracias al soporte multiplataforma para desplegar la inferencia de LLM en una amplia gama de aceleradores de hardware, incluyendo NVIDIA y AMD.

llm-d se basa en vLLM, transformándolo de un motor de inferencia de alto rendimiento de un solo nodo en un sistema de servicio distribuido, consistente y escalable. Este sistema está estrechamente integrado con Kubernetes y diseñado para posibilitar un rendimiento predecible, un retorno de inversión (ROI) medible y una planificación de infraestructura eficaz. Todas estas mejoras abordan directamente los desafíos de gestionar cargas de trabajo de LLM altamente variables y de servir modelos masivos, como los modelos Mixture-of-Experts (MoE).

Una plataforma unificada para la IA colaborativa

Red Hat AI 3 ofrece una experiencia unificada y flexible, diseñada específicamente para las exigencias colaborativas inherentes a la creación de soluciones de IA generativa listas para producción. Diseñada para generar un valor tangible al promover la colaboración y armonizar los flujos de trabajo entre equipos, ofreciendo una plataforma única que permita tanto a los ingenieros de plataforma como a los de IA ejecutar eficazmente su estrategia. Entre las nuevas capacidades, orientadas a ofrecer la productividad y eficiencia necesarias para escalar de la prueba de concepto a la producción, se incluyen:

  • Las capacidades de Modelo como Servicio (MaaS) se basan en la inferencia distribuida y permiten a los equipos de TI actuar como sus propios proveedores de MaaS, sirviendo modelos comunes de forma centralizada y ofreciendo acceso bajo demanda tanto para desarrolladores de IA como para aplicaciones de IA. Esto permite una mejor gestión de costes y soporta casos de uso que no pueden ejecutarse en servicios públicos de IA debido a preocupaciones de privacidad o datos.
  • El hub de IA faculta a los ingenieros de plataforma para explorar, desplegar y gestionar activos fundacionales de IA. Proporciona un hub central con un catálogo curado de modelos, que incluye modelos de IA generativa validados y optimizados, un registro para gestionar el ciclo de vida de los modelos y un entorno de despliegue para configurar y monitorizar todos los activos de IA que se ejecutan en OpenShift AI.
  • Gen AI studio proporciona un entorno práctico para que los ingenieros de IA interactúen con modelos y prototipen rápidamente nuevas aplicaciones de IA generativa. Gracias a la funcionalidad de punto final de activos de IA, los ingenieros pueden descubrir y consumir fácilmente modelos disponibles y servidores MCP, diseñados para agilizar la interacción de los modelos con herramientas externas. El playground integrado proporciona un entorno interactivo e independiente de sesiones para experimentar con modelos, probar prompts y ajustar parámetros para casos de uso como el chat y la generación aumentada por recuperación (RAG).
  • Se incluyen nuevos modelos validados y optimizados por Red Hat para simplificar el desarrollo. La selección curada abarca modelos populares de código abierto como gpt-oss de OpenAI, DeepSeek-R1, y modelos especializados como Whisper para la conversión de voz a texto y Voxtral Mini para agentes habilitados por voz.

Desarrollado las bases para los agentes de IA de última generación

Los agentes de IA están llamados a transformar la forma en que se construyen las aplicaciones, y sus flujos de trabajo complejos y autónomos impondrán grandes exigencias a las capacidades de inferencia. La versión Red Hat OpenShift AI 3.0 sigue sentando las bases para sistemas de IA agéntica escalables, no solo a través de sus capacidades de inferencia, sino también con nuevas funcionalidades y mejoras centradas en la gestión de agentes.

Para acelerar la creación y el despliegue de agentes, Red Hat ha introducido una capa de API unificada basada en Llama Stack, que ayuda a alinear el desarrollo con estándares de la industria como los protocolos de interfaz LLM compatibles con OpenAI. Además, para promover un ecosistema más abierto e interoperable, Red Hat es uno de los primeros en adoptar el Protocolo de Contexto de Modelo (MCP), un estándar potente y emergente que agiliza la forma en que los modelos de IA interactúan con herramientas externas, una característica fundamental para los agentes de IA modernos. Red Hat AI 3 introduce un nuevo kit de herramientas modular y extensible para la personalización de modelos, construido sobre la funcionalidad existente de InstructLab. Proporciona bibliotecas Python especializadas que ofrecen a los desarrolladores mayor flexibilidad y control. El kit de herramientas está impulsado por proyectos de código abierto como Docling para el procesamiento de datos, lo que agiliza la ingesta de documentos no estructurados a un formato legible por IA. También incluye un marco flexible para la generación de datos sintéticos y un hub de entrenamiento para el ajuste fino (fine-tuning) de LLM. El hub de evaluación integrado ayuda a los ingenieros de IA a monitorizar y validar los resultados, lo que les permite aprovechar con confianza sus datos propietarios para obtener resultados de IA más precisos y relevantes.

encuentra artículos

newsletter

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

LO ÚLTIMO

×