AWS admite que no retira las Nvidia A100: la escasez de GPU alarga la vida del hardware “viejo” en la nube

Amazon Web Services (AWS) ha puesto palabras a una realidad que muchos clientes llevan meses percibiendo en silencio: cuando la demanda de GPU supera a la oferta, el calendario tecnológico deja de ser una ley. Según el CEO de AWS, Matt Garman, la compañía sigue operando servidores con Nvidia A100 —una GPU presentada en 2020— y asegura que no ha retirado ninguna, en parte porque la capacidad disponible continúa siendo insuficiente para cubrir lo que pide el mercado.

Garman lo explicó durante una conversación con Jeetu Patel, presidente y director de producto de Cisco, en el marco de un evento reciente de la industria. Su diagnóstico fue directo: la presión por capacidad sigue siendo tan alta que los chips “antiguos” mantienen demanda real, hasta el punto de que AWS asegura estar completamente vendida en instancias basadas en A100. El mensaje, más allá del titular, apunta a un cambio estructural: la nube ya no se mueve solo por ciclos de renovación, sino por utilización y disponibilidad.

Una señal de época: el hardware no se jubila si sigue siendo útil

En el mundo del cloud, “retirar” hardware no es una cuestión sentimental: suele ser el resultado de un cálculo frío entre coste operativo, eficiencia energética, densidad de rendimiento y soporte. Sin embargo, la Inteligencia Artificial ha alterado esa ecuación. La explosión de entrenamiento e inferencia, junto con la adopción de modelos cada vez más grandes y caros de mover, ha hecho que cualquier GPU capaz de producir resultados rentables siga teniendo un hueco.

La A100, aunque pertenece a una generación anterior frente a H100/H200 o las arquitecturas más recientes, continúa siendo una pieza valiosa para muchos escenarios: desde inferencia intensiva y pipelines de datos hasta entrenamiento “suficiente” para equipos que no necesitan lo último. Y_toggle_: cuando la alternativa es esperar, pagar primas o rediseñar cargas, la decisión práctica suele ser clara.

Google y sus TPU también: “siete u ocho años” al 100 % de uso

El argumento de AWS no llega aislado. Garman comparó la situación con lo que ya había descrito Google en otro foro: Amin Vahdat, vicepresidente y responsable de IA e infraestructura, afirmó que la compañía mantiene siete generaciones de TPU en producción, con hardware de “siete y ocho años” funcionando a utilización del 100 %. El matiz importante es que no solo las GPU se estiran: también el silicio propietario cuando la demanda está sobredimensionada y la plataforma necesita continuidad.

En términos de mercado, esto rompe un mito: no siempre gana quien corre más hacia el chip nuevo, sino quien logra más horas útiles por vatio, por euro y por rack con lo que ya tiene desplegado.

No todo es demanda: la precisión manda en HPC

La parte más interesante del comentario de Garman no fue el “seguimos usando A100”, sino el motivo técnico por el que algunos clientes no quieren migrar automáticamente a la última generación. El CEO de AWS apuntó que la industria ha obtenido grandes mejoras reduciendo precisión (menos bits, más rendimiento aparente) en muchas cargas de Inteligencia Artificial. Pero no todo se beneficia de esa tendencia.

En sus palabras, algunos usuarios le trasladaron que no pueden moverse a arquitecturas más nuevas porque realizan cálculos estilo HPC donde la precisión numérica es crítica. En ese tipo de trabajo —simulación, ciencia, ingeniería, finanzas cuantitativas, modelado físico—, perder precisión no es un “trade-off”; puede ser un error. En otras palabras: la carrera por acelerar la Inteligencia Artificial mediante menor precisión convive con un mundo donde la exactitud sigue siendo innegociable.

Ese choque de necesidades ayuda a entender por qué el hardware anterior se mantiene vivo. No es solo que “sirva”: en algunos casos, sirve mejor para una parte del mercado.

Rebaja de precios en 2025: exprimir lo amortizado, competir por volumen

AWS también dejó una pista relevante para entender la estrategia comercial detrás de este escenario. En junio de 2025, la compañía anunció una reducción de costes para acceder a instancias con Nvidia H100, H200 y A100, con una bajada del 33 % en el precio bajo demanda de instancias A100 en los tipos P4d y P4e.

Más allá de la cifra, el movimiento sugiere un patrón clásico: cuando la plataforma tiene capacidad valiosa ya desplegada y amortizable, bajar precio puede estimular demanda y aumentar utilización. Con un mercado de GPU tensionado, esa palanca cobra todavía más sentido: hacer atractiva la “generación anterior” para absorber picos de consumo sin depender por completo de la llegada de hardware nuevo.

Lo que cambia para empresas y desarrolladores

Para el cliente, la conclusión es menos épica, pero más útil: planificar infraestructura de Inteligencia Artificial en la nube ya no consiste solo en elegir la GPU “más nueva”. Implica evaluar:

  • Disponibilidad real (qué se puede contratar hoy, no qué existe en el catálogo).
  • Compatibilidad y reproducibilidad (modelos, drivers, librerías, precisión).
  • Coste total (precio/hora, pero también tiempo de espera, migración y rediseño).
  • Riesgo de dependencia (si un tipo de instancia se agota, ¿hay plan B?).

Y para los proveedores cloud, el mensaje es igual de claro: en la era de la Inteligencia Artificial, retirar hardware por calendario puede ser un lujo. La prioridad es otra: mantener la capacidad en servicio, porque la demanda no perdona.


Preguntas frecuentes

¿Por qué AWS seguiría usando Nvidia A100 si existen GPUs más nuevas?
Porque la demanda de GPU sigue superando a la oferta y, además, muchos clientes aún obtienen resultados competitivos con A100, especialmente si el coste y la disponibilidad son mejores.

¿Qué tipo de cargas se benefician de mantener hardware “antiguo”?
Inferencia, entrenamiento de tamaño medio, procesamiento de datos y ciertas cargas donde la estabilidad, compatibilidad o coste pesan más que el salto generacional.

¿Por qué algunos clientes no pueden migrar a GPUs más nuevas?
En trabajos tipo HPC, la precisión numérica puede ser crítica. Si una arquitectura o configuración prioriza rendimiento con menor precisión, puede no servir para simulaciones o cálculos sensibles.

¿Qué implica la bajada del 33 % en instancias A100 (P4d/P4e)?
Que AWS intenta hacer más atractiva esa capacidad para mantener alta utilización y ofrecer una opción competitiva cuando la GPU más nueva es escasa o más cara.

vía: datacenterdynamics

encuentra artículos

newsletter

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

LO ÚLTIMO

Las últimas novedades de tecnología y cloud

Suscríbete gratis al boletín de Revista Cloud. Cada semana la actualidad en tu buzón.

Suscripción boletín
×