Qualcomm presenta AI200 y AI250: aceleradores “rack-scale” para inferencia generativa con más memoria, menor TCO y un salto de ancho de banda efectivo

Qualcomm ha dado un golpe sobre la mesa en la carrera por la inferencia de IA en centros de datos. La compañía ha anunciado AI200 y AI250, dos soluciones de aceleración que se venden como tarjetas y racks completos y que prometen rendimiento a escala de rack, capacidad de memoria superior y un coste total de propiedad (TCO) líder del sector para desplegar modelos generativos (LLM y LMM) con eficiencia por euro/vatio sin renunciar a seguridad ni flexibilidad. El enfoque, más allá de la potencia bruta, se centra en lo que la industria demanda ahora mismo: servir modelos ya entrenados al menor coste, con alta utilización del hardware, latencias bajas y una pila de software pensada para operacionalizar IA.

“Con AI200 y AI250 redefinimos lo posible en inferencia de IA a escala de rack. Estas soluciones permiten desplegar IA generativa con un TCO sin precedentes, manteniendo la flexibilidad y la seguridad que exigen los centros de datos modernos”, afirmó Durga Malladi, SVP & GM de Technology Planning, Edge Solutions & Data Center en Qualcomm Technologies.

La propuesta llega con disponibilidad escalonada: AI200 se espera para 2026 y AI250 en 2027, dentro de una hoja de ruta multigeneracional con cadencia anual que pone el foco —lo repite Qualcomm— en rendimiento de inferencia, eficiencia energética y TCO.


Dos caminos hacia la misma meta: inferencia generativa a gran escala

AI200: inferencia de IA “a nivel de rack” con más memoria por tarjeta

Qualcomm AI200 se describe como una solución de inferencia a nivel de rack orientada a bajo TCO y alto rendimiento por dólar por vatio. Un dato llama la atención: hasta 768 GB de LPDDR por tarjeta, una cifra que triplica o cuadruplica la memoria local típica en muchos aceleradores actuales y que está diseñada para encajar contextos largos y lotes más grandes sin penalizar el rendimiento por falta de capacidad.

  • Memoria: 768 GB LPDDR por tarjeta para capacidad a menor coste/GB.
  • Objetivo: inferencia de LLM y modelos multimodales (LMM) con escalabilidad y flexibilidad.
  • Escala: tarjetas y racks completos capaces de crecer hacia arriba (PCIe, scale-up) y hacia fuera (Ethernet, scale-out).
  • Refrigeración: líquida directa en los racks para mejorar eficiencia térmica.
  • Seguridad: confidential computing para proteger datos y cargas durante la ejecución.

La combinación de LPDDR de gran capacidad y PCIe para scale-up anticipa un diseño donde más memoria por acelerador reduce costosos intercambios con memoria externa, y por tanto latencia y consumo; un factor crítico cuando el cuello de botella en inferencia no es solo el cómputo, sino también la alimentación de tokens y activaciones a alta velocidad.

AI250: arquitectura de memoria “near-memory” para un salto generacional en ancho de banda efectivo

Qualcomm AI200

La pieza más disruptiva es Qualcomm AI250, que debuta con una arquitectura de memoria basada en near-memory computing. El objetivo declarado: un salto generacional en eficiencia y rendimiento para inferencia mediante más de 10× de ancho de banda efectivo y menor consumo. Traducido: acercar cómputo y datos para minimizar traslados y aprovechar mejor cada vatio.

  • Near-memory computing: cómputo “cerca” de la memoria para ampliar el ancho de banda efectivo (>10×).
  • Eficiencia energética: menos potencia por token servido.
  • “Disaggregated inferencing”: separación más flexible de componentes (modelo, memoria, cómputo) para utilización superior del hardware.
  • Objetivo: cumplir prestaciones con costes y consumo más bajos frente a soluciones monolíticas.

Si AI200 ataca el problema de capacidad (más memoria por acelerador, más contexto por tarjeta), AI250 busca la velocidad de alimentación (feeding the beast) que hoy asfixia a los grandes modelos: sin ancho de banda de memoria suficiente, el cómputo se infrautiliza. El enfoque near-memory es la respuesta de Qualcomm a esa brecha.


Racks listos para producción: 160 kW, PCIe, Ethernet y seguridad por diseño

Las dos soluciones se ofrecen también como racks completos, listos para múltiple escala:

  • Refrigeración líquida directa: más densidad con menor penalización térmica.
  • PCIe (scale-up): agrupar recursos dentro del nodo con baja latencia.
  • Ethernet (scale-out): escalar a múltiples nodos con protocolos estándar del centro de datos.
  • Confidential computing: cargas cifradas y aisladas en ejecución, esencial en IA con datos sensibles.
  • Consumo: hasta 160 kW por rack, una cifra en línea con densidades modernas para inferencia generativa a gran escala.

La arquitectura “doble escala” (PCIe dentro, Ethernet fuera) ofrece modularidad: crecer por nodos cuando conviene scale-up (más memoria/cómputo por acelerador) o por racks cuando prima scale-out (más instancias sirviendo en paralelo).


Pila de software de grado hyperscaler: del onboarding a “un clic” de despliegue

Qualcomm acompaña el hardware con una pila de software de extremo a extremo, desde la capa de aplicación hasta el sistema, optimizada para inferencia y compatible con los frameworks líderes de machine learning. El mensaje es evitar la fricción:

  • Frameworks y runtimes: soporte para motores de inferencia, frameworks generativos y técnicas de optimización para LLM/LMM, incluidas estrategias de serving desagregado.
  • Onboarding de modelos: incorporación fluida y despliegue en un clic de modelos de Hugging Face mediante Efficient Transformers Library y Qualcomm AI Inference Suite.
  • Tooling: aplicaciones y agentes listos para usar, librerías, APIs y servicios para llevar modelos a producción (observabilidad, gestión, escalado).

En la práctica, esto significa menos porting ad-hoc, menos tiempo entre POC y producción y más reutilización del ecosistema ya dominante, un punto clave en un mercado donde las empresas quieren aprovechar modelos entrenados, no rehacer todo el stack.


Por qué importa: memoria, TCO y la “nueva economía” de la inferencia

1) Capacidad y ancho de banda al servicio del context length
Los 768 GB de LPDDR por tarjeta (AI200) y el >10× de ancho de banda efectivo (AI250) atacan los dos cuellos que hoy frenan la inferencia generativa: memoria insuficiente para contextos largos y alimentación lenta del cómputo. Si los datos no llegan a tiempo, la FLOPs teórica no se traduce en tokens servidos.

2) TCO por token
La métrica clave en producción no son las FLOPs, sino el coste por respuesta. Más memoria económica por acelerador y menos vatios por token vía near-memory son la vía de Qualcomm para reducir el coste por solicitud, que es lo que piden los responsables de plataforma.

3) Flexibilidad operativa
El serving desagregado y la doble escala (PCIe/Ethernet) permiten asignar recursos según el modelo y la carga: más memoria para contextos extensos, más cómputo para concurrencia, más nodos para multicliente, manteniendo confidential computing para datos sensibles.

4) Ruta de adopción
El hecho de que el software apunte a frameworks existentes y a Hugging Face con despliegue en un clic alivia el coste de cambio para los equipos: se trata de servir mejor lo que ya tienen, no de reinventar el proceso.


Calendario y hoja de ruta

  • AI200: disponibilidad comercial prevista en 2026.
  • AI250: disponibilidad comercial prevista en 2027.
  • Roadmap: cadencia anual con foco en rendimiento de inferencia, eficiencia energética y TCO.

El timing encaja con lo que anticipa el mercado: de 2026 en adelante, los grandes clientes escalarán IA generativa en producción y buscarán plataformas optimizadas para servir modelos a gran escala con costes predecibles.


Retos y preguntas que quedan sobre la mesa

  • Validación de rendimiento: el salto >10× de ancho de banda efectivo en AI250 es relevante; la industria querrá benchmarks comparables (end-to-end) y cargas reales (LLM/LMM con batching, speculative decoding, KV-cache).
  • Eficiencia energética rack-scale: 160 kW por rack exigen densidad y enfriamiento bien gestionados; la refrigeración líquida directa Mitiga, pero la operación será determinante para justificar el TCO.
  • Ecosistema: la promesa de “un clic” sobre Hugging Face y frameworks líderes es ambiciosa; la compatibilidad con nuevas técnicas (p. ej., mixture-of-experts, RAG con índices externos) deberá sostenerse en el tiempo.
  • Seguridad: el empuje a confidential computing es clave; audiencias reguladas pedirán certificaciones, aislamiento e integraciones con KMS y SIEM existentes.

Para quién es esto

  • Hiperescaladores y grandes clouds que buscan desagregar inferencia de IA para maximizar utilización y reducir TCO por token.
  • Proveedores SaaS con cargas gen-AI intensivas (asistentes, búsqueda semántica, copilotos) que necesitan escalar con latencia predecible y coste controlado.
  • Empresas reguladas que requieren confidential computing y despliegues on-prem o colo sin renunciar a frameworks estándar.

Preguntas frecuentes

¿Qué es near-memory computing y por qué mejora la inferencia de LLM?
Es una arquitectura que acerca el cómputo a la memoria, reduciendo los traslados de datos. Para LLM/LMM, donde el cuello de botella suele ser el ancho de banda de memoria, esto puede traducirse en un >10× de ancho de banda efectivo (según Qualcomm) y un menor consumo por token.

¿Qué ventajas aporta disponer de 768 GB de LPDDR por tarjeta (AI200)?
Más capacidad local permite contextos más largos, lotes mayores y menos intercambio con memoria externa, lo que reduce latencia y consumo y mejora el coste por respuesta en serving de modelos grandes.

¿Cómo se integran modelos de Hugging Face en AI200/AI250?
La pila de Qualcomm ofrece onboarding fluido y despliegue en un clic vía Efficient Transformers Library y Qualcomm AI Inference Suite, con soporte para frameworks líderes y técnicas de serving desagregado.

¿Cuándo estarán disponibles y qué diferencia hay entre AI200 y AI250?
AI200 se espera en 2026 con foco en capacidad de memoria y TCO; AI250 llegará en 2027 con una arquitectura near-memory que, según Qualcomm, aporta un salto >10× en ancho de banda efectivo y eficiencia energética para inferencia.

vía: Qualcomm

encuentra artículos

newsletter

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

LO ÚLTIMO

×