Con NVIDIA marcando el paso del hardware de inteligencia artificial —de Blackwell a la nueva plataforma Rubin apoyada en CPUs Vera y contextos de hasta “millón de tokens”— podría parecer que el tablero está resuelto. Positron AI discrepa. Su CEO, Mitesh Agarwal, defiende que hay espacio para alternativas centradas en inferencias más baratas y eficientes, aptas para centros de datos por aire (air-cooled) y sin la urgencia de migrar a la refrigeración líquida que exigirían las GPU de NVIDIA de nueva hornada.
La apuesta de Positron se materializa en Atlas (primera generación) y Asimov (la próxima), dos aceleradores que, según Agarwal, consumen entre 2 y 5 veces menos energía que una GPU de NVIDIA en cargas de inferencia y encajan en racks convencionales por aire. El mensaje, dirigido a hyperscalers, clouds y hosters con metros cuadrados ya amortizados, es directo: desplegar en lo que ya existe. “El 95 % de la capacidad instalada hoy es air-cooled. Rubin y Blackwell obligan a nuevas obras; nosotros entramos donde están”, resume.
Aire frente a líquido: costes, plazos y complejidad
Para Positron, no se trata de sacrificar rendimiento sino de diseñar para inferencia. Ahí es donde, sostiene, se gana el volumen de negocio. La comparativa térmica no es menor: Blackwell ronda los 1.200 W por GPU y Rubin —apunta el directivo citando prensa especializada— podría alcanzar los 2.000 W. A esas densidades, el aire es inviable; toca líquido, con su consiguiente CAPEX (tuberías, intercambiadores, pasillo húmedo, garantías de suministro de agua) y OPEX de mantenimiento.
Agarwal añade un matiz importante: los centros por líquido son más eficientes a escala de edificio, pero construirlos cuesta un 40–50 % más y lleva tiempo. En mercados con restricciones eléctricas —centros urbanos de EE. UU. o Europa—, no siempre hay potencia disponible para levantar un campus de nueva generación. Si el acelerador cabe en air-cooled y rinde en inferencia, se atiende demanda hoy sin esperar permisos ni subestaciones.
El claim técnico: potencia contenida y eficiencia por token
La hoja técnica que Positron verbaliza es sencilla de recordar:
- Presupuesto energético por chip: < 200 W en los diseños base y ~ 400 W en configuraciones superiores, ambas aireables.
- Eficiencia: 2–5× mejor que una GPU de NVIDIA en inferencia (según casos).
- Rendimiento/€ (performance per dollar): ≈ 3,5× frente a Hopper; hasta 5× en cargas hambrientas de memoria/energía.
- ROI: donde NVIDIA requeriría ~ 2–2,5 años para amortizar la inversión, Atlas estaría en 15–16 meses, y el siguiente silicio bajaría de 12 meses; en escenarios extremos, ~ 6 meses.
La constante en todas las métricas es la misma: inferir más tokens por euro y por vatio. Frente a una GPU generalista para entrenamiento + inferencia —el enfoque de NVIDIA—, Positron se declara especialista en inferencia, justo donde explota el mercado en 2025–2028.
El ángulo de la escasez: otra memoria, otro cuello de botella
Buena parte del cuello de botella de la industria no está en la oblea sino en el packaging avanzado y la memoria HBM (p. ej., CoWoS). Ahí todos compiten por los mismos turnos. Positron afirma evitar ese carril con una arquitectura de memoria propia, lo que desacoplaría sus cadenas de suministro de las de NVIDIA/AMD/TPU. Resultado: menos dependencia del embudo HBM y, en teoría, más escalabilidad si acompañan los pedidos.
En producción, Atlas es —según la compañía— “US-made” con Intel Foundry y una cadena doméstica. Asimov (objetivo: tape-out a finales de 2026) llegaría en un nodo maduro y más disponible, con opciones de fabricación también en Arizona. La lectura entre líneas: priorizar capacidad frente a pelear cada milímetro en el nodo de vanguardia.
¿Y el stack de sistema? CPUs x86 y aceleradores “Archer”
Positron no compite en CPU: usa AMD EPYC (como podría ser Intel o Arm) y compone sistemas Atlas con 8 aceleradores “Archer”, 24 canales DDR5 RDIMM y doble EPYC Genoa. La diferencia —insiste Agarwal— está en el acelerador y su memoria:
- Utilización de ancho de banda de memoria: > 90 % (frente a 40–50 % “incluso en el mejor caso GPU”).
- Capacidad: hoy prioriza el ancho de banda; Asimov subiría el listón con ~ 2 TB por tarjeta (≈ 2.048 GB), ≈ 5× más que lo anticipado para Rubin (288–384 GB HBM3e, según versiones).
Si la limitación de la carga está en memoria (prefill intensivo, contextos grandes, prompt caches, bases vectoriales), esa combinación —alto aprovechamiento + gran capacidad— eleva el caudal sin pelear cada gigabyte de HBM.
Rubin CPX, prefill y “cooperación competitiva”
La respuesta de NVIDIA al auge de la inferencia ya está en marcha con Rubin CPX, un acelerador orientado a prefill (entrada de tokens). ¿Le preocupa a Positron? “No”, dice Agarwal: la salida (decoding) —código, vídeo, generación prolongada— será la palanca económica y ahí es donde Positron optimiza. Incluso plantea sistemas híbridos: Rubin CPX + Positron para combinar fortalezas y exprimir € por token en workloads mixtas.
El subtexto es claro: entrenamiento seguirá concentrándose en unos pocos chips generalistas; la inferencia se fragmentará en ASICs y GPUs específicas por tarea. Y el pastel es grande: ≈ 400.000 M $ de gasto en 2028 para inferencia, cita el directivo.
Competidores “domésticos”: Trainium y TPU
¿Y frente a Trainium (AWS) o TPU (Google)? Agarwal distingue plataforma y aplicación. Si el indicador único es rendimiento/€ por token en LLM de frontera, asegura ≈ 3,5× frente a Hopper y mejor que Trainium/TPU en los casos que maximizan memoria y eficiencia por vatio. La tesis: no hace falta ser nº 1 en todo; basta con ser nº 1 en lo que paga la factura.
Casos de uso y clientes: brownfield antes que greenfield
La teoría gana tracción cuando aterriza en centros con potencia limitada. Agarwal cita a Cloudflare —cliente público— como ejemplo de quien no puede “pedir más megavatios a la ciudad” ni reconstruir por líquido en San Francisco, Nueva York o Chicago. Ahí entra Atlas: más tokens por vatio en lo que ya está.
Señales a vigilar (y cautelas)
- Las cifras de 2.000 W para Rubin aparecen no confirmadas por NVIDIA; son estimaciones externas que la compañía no comenta.
- El calendario de Asimov (finales de 2026) y su capacidad de 2 TB son objetivos; habrá que ver silicio real.
- Liquid-cooling seguirá creciendo por eficiencia energética y densidad: Positron lo admite y promete soporte dual (aire/líquido) según layout.
- El éxito del enfoque dependerá de si la mayoría de cargas de inferencia de alto valor siguen atadas a memoria y decoding —donde asegura ventaja— y de si mantiene la ventana de supply chain fuera del embudo HBM.
Lo esencial
En un mercado que corre hacia racks de líquido, megavatios a pie de nave y HBM por kilos, Positron levanta la mano para lo ya construido, con chips de 200–400 W, memoria distinta, mejor aprovechamiento y una promesa que seduce a cualquier CFO: recuperar la inversión en meses, no en años, en inferencias reales. Si Rubin es la autopista de NVIDIA, Positron quiere llenar las carreteras secundarias que siguen moviendo el tráfico.
Preguntas frecuentes
¿Por qué insiste Positron en air-cooled si el líquido es más eficiente?
Porque el 95 % de la capacidad existente es por aire y reconstruir para líquido cuesta un 40–50 % más y tarda. En inferencias con chips de 200–400 W, Positron defiende que encaja en racks actuales y acorta el time-to-value.
¿Qué significa “2–5× más eficiente” frente a una GPU de NVIDIA?
En inferencias, más tokens por vatio y más tokens por euro. La compañía habla de ≈ 3,5× rendimiento/€ frente a Hopper y hasta 5× en cargas muy sensibles a memoria/energía. El ROI bajaría de 2–2,5 años a 15–16 meses (Atlas) y < 12 meses en la siguiente generación.
¿Cómo esquiva Positron la escasez de HBM?
Asegura usar otra arquitectura de memoria (no HBM/CoWoS), con > 90 % de uso de ancho de banda y, en Asimov, ~ 2 TB de capacidad por tarjeta. Así desacopla su producción de los cuellos que afectan a NVIDIA/AMD/TPU.
¿Rubin CPX no deja fuera a Positron en inferencia?
Rubin CPX optimiza prefill. Positron reivindica el decoding (salida) —código, vídeo, generación larga— como motor de coste y propone incluso combinar Rubin CPX + Positron para maximizar € por token en pipelines mixtos.
¿En qué stack se integra Atlas?
En servidores x86 con doble AMD EPYC, 24 canales DDR5 y 8 aceleradores Archer. No compite en CPU; su diferencial está en el acelerador y su memoria.
Nota: las cifras y afirmaciones citadas proceden de declaraciones del CEO de Positron AI en la entrevista de referencia. Algunos valores de potencia y memoria de plataformas ajenas (p. ej., Rubin) son estimaciones de terceros que los fabricantes no han confirmado públicamente.
vía: wccftech