Cerebras vuelve a poner sobre la mesa una pregunta incómoda para la industria de la inteligencia artificial: ¿y si el problema no fuera tener más GPU, sino depender demasiado de una arquitectura pensada originalmente para otro tipo de cargas? Andrew Feldman, cofundador y consejero delegado de Cerebras, lleva tiempo defendiendo esa tesis: la inferencia de grandes modelos de lenguaje no se parece al renderizado gráfico ni al entrenamiento masivo tradicional. Es, sobre todo, un problema de memoria.
La explicación es sencilla, aunque las implicaciones son enormes. Para generar cada token, un modelo de lenguaje tiene que mover pesos desde la memoria hacia las unidades de cálculo. Si ese flujo se atasca, el procesador puede tener mucha potencia teórica y aun así esperar datos. En ese escenario, la velocidad no depende solo de los FLOPS, sino de dónde está la memoria, cuánta distancia hay hasta el cálculo y cuánto ancho de banda real puede sostener el sistema.
Cerebras no quiere muchas GPU: quiere un solo wafer
La apuesta de Cerebras es radical porque cambia el punto de partida. Mientras la industria tradicional corta una oblea de silicio en cientos de chips pequeños, Cerebras utiliza prácticamente la oblea entera como un único procesador. Su WSE-3 mide 46.225 mm², integra 4 billones de transistores, 900.000 núcleos optimizados para IA y ofrece 125 petaFLOPS de cálculo de IA, según la documentación de la compañía.
La parte más importante no está solo en el tamaño, sino en la memoria. El WSE-3 incorpora 44 GB de SRAM en el propio chip y declara 21 PB/s de ancho de banda de memoria. Es una cifra difícil de comparar con una GPU convencional porque la arquitectura es muy distinta, pero muestra la idea central: acercar memoria y cómputo todo lo posible para reducir movimiento de datos. La propia ficha técnica del CS-3 sitúa el consumo máximo del sistema en 27 kW y describe configuraciones de clúster con refrigeración líquida para despliegues de inferencia a gran escala.
| Característica | Cerebras WSE-3 / CS-3 | NVIDIA H100 / DGX B200 |
|---|---|---|
| Enfoque | Wafer-scale, un chip de tamaño oblea | GPU discretas conectadas en sistemas multi-GPU |
| Transistores | 4 billones | H100 y B200 usan chips individuales mucho más pequeños |
| Memoria principal cercana al cómputo | 44 GB SRAM en chip | HBM externa en el paquete |
| Ancho de banda de memoria | 21 PB/s en SRAM | H100 SXM: 3,35 TB/s; DGX B200: 64 TB/s agregados en HBM3e |
| Complejidad dominante | Fabricar un chip enorme tolerante a defectos | Coordinar muchas GPU, memoria HBM e interconexión |
| Ventaja principal | Baja latencia por usuario en inferencia concreta | Ecosistema, disponibilidad, software y rendimiento generalista |
La comparación con NVIDIA debe hacerse con cuidado. H100 no es Blackwell, y un sistema DGX B200 agrega ocho GPU con un ancho de banda total de HBM3e que NVIDIA sitúa en 64 TB/s. Aun así, la diferencia arquitectónica sigue siendo clara: Cerebras concentra cálculo y SRAM dentro de un único wafer; NVIDIA escala mediante GPUs, HBM, NVLink, NVSwitch, software y redes de alta velocidad.
La inferencia cambia las reglas del juego
Durante la primera fase del boom de la IA, la conversación se centró en el entrenamiento. Ahí las GPU de NVIDIA han sido dominantes por una combinación difícil de replicar: hardware potente, CUDA, librerías, frameworks, experiencia operativa, proveedores cloud y una cadena de suministro madura. Pero la siguiente batalla está en la inferencia, especialmente en modelos grandes, agentes, asistentes de programación, voz en tiempo real y flujos con muchos pasos.
En inferencia interactiva, el usuario no solo quiere que el sistema procese muchas peticiones en paralelo. Quiere una respuesta rápida. Si un agente debe razonar, consultar herramientas, leer documentos y generar varios pasos, la latencia por usuario se vuelve un factor de producto. Una respuesta que tarda segundos puede ser aceptable; una que tarda minutos rompe la experiencia.
Ahí es donde Cerebras está intentando diferenciarse. En mayo de 2025, la compañía anunció que Artificial Analysis había medido su endpoint de Llama 4 Maverick en 2.522 tokens por segundo por usuario, frente a 1.038 tokens por segundo para NVIDIA Blackwell en el mismo modelo. NVIDIA había anunciado días antes que un nodo DGX B200 con ocho GPU Blackwell superaba los 1.000 tokens por segundo por usuario en Llama 4 Maverick, gracias a optimizaciones como TensorRT-LLM, FP8 y decodificación especulativa basada en EAGLE-3.
La diferencia es relevante, pero no significa que Cerebras sea “mejor que NVIDIA” en todo. Significa que, en determinados escenarios de inferencia de baja latencia y modelos concretos, su arquitectura puede ofrecer una ventaja clara. NVIDIA sigue teniendo una posición mucho más amplia en entrenamiento, ecosistema, soporte empresarial, disponibilidad cloud, herramientas de desarrollo y compatibilidad con prácticamente todo el software moderno de IA.
Simplificar el sistema complicando la fabricación
La intuición más interesante de Cerebras es que ha movido la dificultad de sitio. NVIDIA resuelve el problema conectando muchas piezas: GPU, HBM, NVLink, NVSwitch, InfiniBand, software de orquestación, kernels optimizados y servidores completos. Cerebras intenta eliminar parte de esa complejidad concentrando el sistema en un único trozo enorme de silicio.
Ese enfoque obliga a resolver un problema que durante años parecía casi imposible: fabricar un chip del tamaño de una oblea sin que los defectos lo arruinen. Cerebras lo aborda con redundancia, rutas alternativas y una arquitectura tolerante a fallos que permite aislar zonas defectuosas y seguir funcionando. La compañía lo resume como un diseño pensado para convivir con defectos, no para fingir que no existen.
Es una apuesta de ingeniería dura, pero tiene una ventaja conceptual: si funciona, evita parte del coste de mover datos entre chips. En IA, mover datos consume energía, tiempo y complejidad. Por eso la frase “la memoria es el cuello de botella” se repite cada vez más. No basta con multiplicar la potencia de cálculo si el modelo pasa buena parte del tiempo esperando pesos.
| Problema de la IA generativa | Respuesta típica en GPU | Respuesta de Cerebras |
|---|---|---|
| Modelo grande | Dividir entre muchas GPU | Colocar mucho cálculo y memoria en un wafer |
| Movimiento de datos | HBM, NVLink, NVSwitch, redes | SRAM en chip y red interna del wafer |
| Escalado | Clústeres multi-GPU | Sistemas CS-3 y clústeres wafer-scale |
| Latencia por usuario | Optimización de kernels y batching | Reducir el viaje entre memoria y cómputo |
| Programación distribuida | Necesaria en muchos escenarios | Cerebras promete simplificarla |
Por qué NVIDIA no está derrotada
El entusiasmo por Cerebras no debe ocultar la realidad del mercado. NVIDIA no domina solo por velocidad bruta. Domina por su plataforma. CUDA, TensorRT, Triton, cuDNN, NCCL, DGX, HGX, networking, documentación, proveedores cloud, integración empresarial y talento disponible forman una barrera enorme.
Además, muchas cargas no se miden solo en tokens por segundo por usuario. En producción importan el coste por millón de tokens, la utilización, el throughput total, la disponibilidad de capacidad, el soporte de modelos, la estabilidad de los drivers, la compatibilidad con frameworks, la seguridad, el despliegue multicliente y la facilidad para operar a escala.
Cerebras tiene una historia potente para inferencia rápida. NVIDIA tiene una plataforma generalista que ya está instalada en miles de centros de datos. La batalla no será binaria. Lo más probable es que el mercado se fragmente: GPU para entrenamiento y muchas cargas generales; ASICs, chips wafer-scale y aceleradores especializados para inferencia de baja latencia o modelos concretos; y una mezcla de hardware según coste, rendimiento y disponibilidad.
La pregunta que abre Cerebras es otra: si la inferencia se convierte en el gran coste operativo de la IA, quizá la arquitectura más rentable no sea siempre un clúster de GPU generalistas. Para agentes, voz, búsqueda generativa, asistentes de código y razonamiento interactivo, la velocidad por usuario puede valer mucho. Si un sistema responde el doble de rápido, no solo mejora la experiencia; también permite construir productos que antes eran demasiado lentos.
Cerebras no ha encontrado una forma mágica de saltarse la física. Ha elegido otra física: menos distancia entre memoria y cálculo, menos orquestación entre chips y más complejidad asumida en fabricación. Si esa apuesta escala, NVIDIA tendrá competencia real en una de las capas más sensibles de la IA: la inferencia rápida.
Preguntas frecuentes
¿Por qué Cerebras puede ser más rápido que NVIDIA en algunos modelos?
Porque su arquitectura coloca una gran cantidad de memoria SRAM directamente en el chip y ofrece un ancho de banda muy alto, lo que reduce el cuello de botella de mover pesos durante la inferencia.
¿El chip de Cerebras es una GPU?
No. El WSE-3 es un procesador wafer-scale diseñado específicamente para IA. Su enfoque es distinto al de una GPU convencional.
¿Significa esto que Cerebras supera a NVIDIA en todo?
No. Cerebras destaca en ciertos escenarios de inferencia de baja latencia, pero NVIDIA mantiene una ventaja enorme en ecosistema, software, entrenamiento, disponibilidad y adopción empresarial.
¿Por qué la memoria importa tanto en los LLMs?
Porque para generar tokens el modelo necesita acceder repetidamente a sus pesos. Si la memoria está lejos o el ancho de banda es limitado, el cálculo puede quedar esperando datos.
vía: LinkedIN