Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

Red Hat lanza la comunidad llm-d para potenciar la inferencia distribuida de IA generativa a gran escala

Red Hat, líder global en soluciones de código abierto, ha presentado llm-d, un nuevo proyecto con el que busca responder a uno de los retos más urgentes del futuro de la inteligencia artificial generativa: la inferencia a gran escala. Este desarrollo se centra en mejorar el rendimiento y la eficiencia con la que los modelos de lenguaje generativos (LLM) ejecutan tareas reales en entornos de producción.

llm-d ha sido diseñado desde el principio para aprovechar al máximo entornos nativos de Kubernetes, combinando una arquitectura distribuida basada en vLLM y un innovador sistema de enrutamiento de red inteligente con conciencia de IA. Gracias a esta combinación, el sistema es capaz de desplegar nubes de inferencia que se ajustan a los más altos niveles de exigencia operativa y de servicio (SLO), incluso en entornos de uso intensivo.

Aunque el entrenamiento de modelos sigue siendo un pilar fundamental, la clave del éxito en la IA generativa está cada vez más en la fase de inferencia: el momento en el que los modelos ya entrenados se ponen en funcionamiento para generar respuestas, contenidos o soluciones. Es ahí donde se traducen en experiencias reales para el usuario y en valor para las empresas.

En este sentido, un informe reciente de Gartner destaca que “para 2028, más del 80 % de los aceleradores de carga de trabajo en centros de datos estarán dedicados a tareas de inferencia, no de entrenamiento”. Este dato refuerza la necesidad de herramientas como llm-d, pensadas para escalar la ejecución de modelos complejos y de gran tamaño, sin caer en problemas de latencia o costes desproporcionados.

La centralización de la inferencia en grandes servidores ya empieza a mostrar limitaciones frente al volumen creciente de solicitudes y la complejidad de los modelos actuales. En este contexto, llm-d se plantea como una alternativa flexible, escalable y abierta que permitirá a desarrolladores y organizaciones desplegar infraestructuras de inferencia más distribuidas y sostenibles, manteniendo un alto rendimiento.

Con este lanzamiento, Red Hat refuerza su compromiso con la innovación abierta y con la evolución del ecosistema de inteligencia artificial, ofreciendo herramientas que faciliten la adopción responsable y eficiente de tecnologías basadas en modelos generativos.

Abordando la necesidad de inferencia de IA generativa escalable con llm-d

Red Hat y sus socios de la industria están afrontando directamente este desafío con llm-d, un proyecto visionario que amplifica el poder de vLLM para trascender las limitaciones de un solo servidor y desbloquear la producción a escala para la inferencia de IA. Utilizando la probada destreza de orquestación de Kubernetes, llm-d integra capacidades de inferencia avanzadas en las infraestructuras de TI empresariales existentes. Esta plataforma unificada permite a los equipos de TI responder a las diversas demandas de servicio de las cargas de trabajo críticas para el negocio, al mismo tiempo que despliega técnicas innovadoras para maximizar la eficiencia y reducir drásticamente el coste total de propiedad (TCO) vinculado a los aceleradores de IA de alto rendimiento.

llm-d ofrece un potente conjunto de innovaciones, destacando:

●        vLLM, que se ha convertido rápidamente en el servidor de inferencia de facto estándar de código abierto, proporcionando soporte de modelos desde el día 0 para modelos de vanguardia emergentes, y soporte para una amplia lista de aceleradores, incluyendo ahora las Unidades de Procesamiento de Tensor (TPU) de Google Cloud.

●        Desagregación de prefill y decode para separar las fases de contexto de entrada y generación de tokens de la IA en operaciones discretas, donde luego pueden distribuirse entre múltiples servidores.

●        Descarga de caché KV (key-value), basada en LMCache, que traslada la carga de memoria de caché KV de la memoria de la GPU a un almacenamiento estándar más rentable y abundante, como la memoria de la CPU o el almacenamiento en red.

●        Clústeres y controladores basados en Kubernetes para una programación más eficiente de los recursos de cómputo y almacenamiento a medida que fluctúan las demandas de carga de trabajo, manteniendo el rendimiento y una menor latencia.

●        Enrutamiento de red consciente de la IA para programar las solicitudes entrantes a los servidores y aceleradores que tienen más probabilidades de tener cachés «calientes» de cálculos de inferencia anteriores.

●        APIs de comunicación de alto rendimiento para una transferencia de datos más rápida y eficiente entre servidores, con soporte para NVIDIA Inference Xfer Library (NIXL).

llm-d: respaldado por líderes de la industria

Este nuevo proyecto de código abierto ya ha conseguido el apoyo de una impresionante coalición de proveedores líderes de modelos de IA generativa, pioneros en aceleradores de IA y destacadas plataformas de nube de IA. CoreWeave, Google Cloud, IBM Research y NVIDIA son colaboradores fundadores, y se suman como socios AMD, Cisco, Hugging Face, Intel, Lambda y Mistral AI, lo que pone de manifiesto la estrecha colaboración del sector para trazar el futuro del servicio de LLM a gran escala. La comunidad llm-d cuenta, además, con el apoyo de los fundadores del Sky Computing Lab de la Universidad de California, creadores de vLLM, y del LMCache Lab de la Universidad de Chicago, artífices de LMCache.

Arraigado en su firme compromiso con la colaboración abierta, Red Hat reconoce la trascendental importancia de contar con comunidades dinámicas y accesibles en el vertiginoso panorama de la inferencia de IA generativa. Red Hat promoverá activamente el desarrollo de la comunidad llm-d, cultivando un entorno inclusivo para los nuevos integrantes e impulsando su evolución constante.

La visión de Red Hat: cualquier modelo, cualquier acelerador, cualquier nube

El futuro de la IA debe estar definido por oportunidades ilimitadas, y no por las limitaciones impuestas por los silos de infraestructura. Red Hat ve un futuro donde las organizaciones pueden desplegar cualquier modelo, en cualquier acelerador, a través de cualquier nube, ofreciendo una experiencia de usuario excepcional y más consistente sin costes exorbitantes. Para desbloquear el verdadero potencial de las inversiones en IA generativa, las empresas necesitan una plataforma de inferencia universal: un estándar para una innovación en IA más fluida y de alto rendimiento, tanto ahora como en el futuro.

Así como Red Hat fue pionera en su propuesta de empresa abierta al transformar Linux en la base de la TI moderna, ahora está preparada para diseñar el futuro de la inferencia de IA. El potencial de vLLM es el de un eje central para la inferencia de IA generativa estandarizada, y Red Hat se compromete a crear un ecosistema próspero en torno no solo a la comunidad vLLM, sino también a llm-d para la inferencia distribuida a escala. La visión es clara: independientemente del modelo de IA, el acelerador subyacente o el entorno de implementación, Red Hat tiene la intención de convertir a vLLM en el estándar abierto definitivo para la inferencia en la nueva nube híbrida.

encuentra artículos

newsletter

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

LO ÚLTIMO

×