
Cerebras contra NVIDIA: por qué un chip gigante puede ganar en inferencia
Cerebras vuelve a poner sobre la mesa una pregunta incómoda para la industria de la inteligencia artificial: ¿y si el problema no fuera tener más GPU, sino depender demasiado de una arquitectura pensada originalmente para otro tipo de cargas? Andrew Feldman, cofundador y consejero delegado de Cerebras, lleva tiempo defendiendo esa tesis: la inferencia de grandes modelos de lenguaje no se parece al renderizado gráfico ni al entrenamiento masivo tradicional. Es, sobre todo, un problema de memoria. La explicación es sencilla, aunque las implicaciones son enormes. Para generar cada token, un modelo de lenguaje tiene que mover pesos desde la memoria hacia las unidades de cálculo. Si ese flujo se atasca, el procesador puede tener mucha potencia teórica y aun




