
Google presenta Ironwood: su TPU para liderar la inferencia de modelos de razonamiento en la era exaescala
Google cerró las ponencias de machine learning en la conferencia Hot Chips con un anuncio de peso: Ironwood, la nueva generación de sus TPU (Tensor Processing Units), diseñada específicamente para inferencia de modelos de lenguaje y razonamiento a gran escala. A diferencia de generaciones anteriores, centradas sobre todo en entrenamiento, Ironwood nace para ejecutar en producción LLMs, arquitecturas mixture-of-experts y modelos de razonamiento, donde la latencia y la fiabilidad son factores críticos. Escalabilidad masiva El avance más llamativo es la capacidad de escalar hasta 9.216 chips en un único nodo, lo que permite alcanzar los 42,5 exaflops de rendimiento (FP8). Todo ello acompañado de 1,77 PB de memoria HBM3e directamente direccionable, compartida mediante optical circuit switches (OCS), que duplican la