AWS llevará Cerebras a Bedrock para acelerar la inferencia de IA

Nota de Prensa

Amazon Web Services quiere reforzar uno de los frentes más sensibles de la actual carrera por la Inteligencia Artificial: la velocidad de inferencia. AWS y Cerebras han anunciado una colaboración por la que la nube de Amazon desplegará sistemas Cerebras CS-3 en sus centros de datos y los pondrá a disposición de los clientes a través de Amazon Bedrock. El servicio, según ambas compañías, llegará en los próximos meses y más adelante en 2026 también permitirá ejecutar modelos abiertos destacados y modelos Amazon Nova sobre hardware de Cerebras.

La noticia es relevante porque no se trata solo de añadir otra opción de hardware al catálogo de AWS, sino de probar una arquitectura distinta para servir modelos generativos a gran velocidad. En lugar de resolver toda la inferencia en un único tipo de procesador, Amazon y Cerebras quieren separar dos fases distintas del proceso: el prefill, que procesa el prompt o contexto inicial, y el decode, que genera los tokens de salida. AWS sostiene que esta división permitirá que cada chip haga aquello para lo que mejor está preparado.

Una arquitectura separada para un cuello de botella cada vez más visible

El planteamiento técnico de la alianza gira alrededor de una idea sencilla de explicar, aunque compleja de ejecutar. AWS usará Trainium para la fase de prefill, mientras que Cerebras CS-3 se encargará del decode. Ambas partes se conectarán mediante Elastic Fabric Adapter, la interconexión de alto rendimiento de Amazon. Según la compañía, esta configuración “disaggregated” o separada puede ofrecer hasta cinco veces más capacidad de tokens rápidos dentro del mismo espacio físico de hardware. Esa cifra, por ahora, debe leerse como una promesa de producto anunciada por las empresas y no como una medición independiente ya validada en producción pública.

La lógica detrás de ese diseño tiene bastante sentido dentro del estado actual de la IA. El prefill es una tarea más intensiva en cómputo paralelo, mientras que el decode está mucho más condicionado por el acceso continuo a memoria para ir generando tokens uno a uno. Cerebras lleva tiempo defendiendo precisamente que su ventaja está en ese segundo punto. Su sistema CS-3 se basa en el Wafer-Scale Engine y en una gran cantidad de memoria SRAM integrada en chip, con un ancho de banda que la compañía sitúa en 21 PB/s, una cifra con la que busca reducir el cuello de botella típico de las GPU cuando los modelos deben recuperar pesos una y otra vez durante la generación.

Ese discurso encaja además con la orientación actual del mercado. La inferencia ya no es solo una fase secundaria después del entrenamiento. Cada vez más empresas están descubriendo que el coste, la latencia y la velocidad de respuesta son determinantes cuando quieren desplegar asistentes, agentes o herramientas de programación. En la explicación oficial del acuerdo, Cerebras asegura que la codificación agéntica genera aproximadamente 15 veces más tokens por consulta que un chatbot convencional, lo que multiplica la presión sobre la infraestructura de inferencia. AWS, por su parte, enmarca la colaboración como una respuesta a cuellos de botella en cargas exigentes como la asistencia de código en tiempo real y las aplicaciones interactivas.

AWS refuerza Bedrock sin renunciar a su propio silicio

Uno de los aspectos más interesantes del anuncio es que Amazon no está sustituyendo su estrategia de chips propios, sino ampliándola. Trainium sigue ocupando un papel central dentro del diseño conjunto y AWS lo presenta como el procesador idóneo para el prefill. La compañía describe Trainium como un chip de IA diseñado a medida para ofrecer escalabilidad y eficiencia de costes en cargas generativas, mientras que su documentación más reciente sitúa a Trainium3 como su primer chip de 3 nm y lo vincula a aplicaciones agénticas, razonamiento y generación de vídeo.

Eso significa que la alianza con Cerebras no contradice la apuesta interna de AWS por Trainium, sino que la complementa allí donde Amazon cree que puede ganar más rendimiento. También refuerza el papel de Amazon Bedrock como capa de acceso a modelos y servicios de IA. Bedrock ya permite trabajar con modelos propios como Amazon Nova y con modelos de terceros, y la documentación oficial de AWS muestra que la familia Nova está integrada en el servicio con opciones orientadas a texto, multimodalidad y razonamiento. La promesa ahora es que parte de esa oferta pueda beneficiarse de una capa de inferencia mucho más rápida.

Hay además un detalle estratégico que AWS ha querido subrayar: la nueva solución se ejecutará dentro de la infraestructura estándar de la nube de Amazon y sobre el AWS Nitro System, de forma que los sistemas CS-3 y los servidores con Trainium mantengan los mismos niveles de aislamiento, seguridad y consistencia operativa que esperan los clientes del ecosistema AWS. Es un mensaje importante porque Cerebras ha sido vista tradicionalmente como una plataforma muy especializada y diferenciada, mientras que Amazon necesita presentar esta integración como una extensión natural de su nube, no como un entorno exótico aparte.

La velocidad importa más que nunca, pero faltan pruebas en producción

El anuncio llega acompañado de cifras muy agresivas. Cerebras afirma que ya está ejecutando modelos para empresas como OpenAI, Meta o Cognition a velocidades de hasta 3.000 tokens por segundo, y defiende que su arquitectura es hasta 15 veces más rápida que alternativas basadas en GPU en determinados escenarios de inferencia. Son cifras impactantes y ayudan a entender por qué AWS se ha interesado por esta tecnología, pero conviene distinguir entre el rendimiento mostrado por Cerebras en su propio entorno y el comportamiento real que tendrá esta oferta cuando llegue a Amazon Bedrock, con clientes, modelos y cargas más variadas.

También hay otra cautela necesaria. AWS y Cerebras han explicado que soportarán tanto configuraciones separadas como agregadas. Es decir, no todo se moverá automáticamente al esquema Trainium para prefill y CS-3 para decode. Las propias compañías reconocen que muchos clientes trabajan con mezclas de cargas muy distintas, con proporciones cambiantes entre contexto y generación, y que en algunos casos seguirá teniendo sentido una arquitectura más tradicional. En otras palabras, la colaboración apunta a una mejora importante para determinados perfiles de inferencia, pero no necesariamente a un reemplazo universal de los despliegues convencionales.

Aun así, el anuncio tiene una lectura de fondo muy clara. AWS quiere evitar que la batalla por la IA en la nube se resuma a quién tiene más GPU, y está construyendo una narrativa en la que su combinación de silicio propio, red, Bedrock y socios especializados puede ofrecer algo distinto. Cerebras, por su parte, logra entrar en la mayor nube del mercado con una propuesta muy alineada con una demanda al alza: inferencia rápida para agentes, asistentes y aplicaciones que ya no pueden permitirse esperar. Queda por ver si el rendimiento prometido se mantiene a escala real, pero la dirección es evidente: en la nueva fase de la IA, la velocidad de respuesta empieza a ser casi tan estratégica como la calidad del modelo.

Preguntas frecuentes

¿Qué han anunciado exactamente AWS y Cerebras?

AWS ha anunciado que desplegará sistemas Cerebras CS-3 en sus centros de datos y que los pondrá a disposición de los clientes a través de Amazon Bedrock. Ambas compañías también colaboran en una arquitectura de inferencia separada que combina AWS Trainium para prefill y Cerebras para decode.

¿Cuándo estará disponible esta nueva infraestructura en AWS?

Según el anuncio oficial de Amazon, la solución llegará en los próximos meses. La ejecución de modelos abiertos destacados y de Amazon Nova sobre hardware de Cerebras se espera más adelante durante 2026.

¿Qué es la inferencia separada o disaggregated inference?

Es un enfoque que divide la inferencia en dos fases: prefill, que procesa el contexto inicial, y decode, que genera la respuesta token a token. AWS y Cerebras sostienen que usar hardware distinto para cada fase puede mejorar la velocidad y la capacidad en ciertas cargas de trabajo.

¿Amazon Nova ya está en Bedrock?

Sí. AWS ya ofrece modelos Amazon Nova en Amazon Bedrock. Lo nuevo de este anuncio es que la compañía planea llevar parte de esa oferta a una infraestructura acelerada con Cerebras para priorizar la velocidad de inferencia.

vía: cerebras.ai