NVIDIA redibuja la inferencia con Rubin CPX: menos HBM, más economía de contexto
En los últimos días se ha viralizado un argumento contundente: que NVIDIA “ha admitido” que su arquitectura está “rota” porque ha presentado un chip para Inteligencia Artificial que prescinde de HBM y recurre a memoria GDDR. La frase suena a titular perfecto para redes sociales, pero la realidad es más interesante —y, sobre todo, más matizada—: NVIDIA está reaccionando a un cambio de fondo en cómo se consume la Inteligencia Artificial en producción, donde la batalla ya no es solo entrenar modelos, sino servirlos de forma rentable cuando el contexto se dispara a cientos de miles o millones de tokens. La pieza que explica este giro es Rubin CPX, un acelerador diseñado específicamente para una parte concreta de la inferencia:
