Un ajuste silencioso en el catálogo de Amazon Web Services (AWS) ha vuelto a poner el foco en una realidad incómoda para muchas empresas: la infraestructura de IA no solo es escasa, también es cada vez más cara de planificar. Varios medios especializados han detectado que AWS habría incrementado en torno a un 15 % el precio de sus EC2 Capacity Blocks for ML (bloques de capacidad reservada para cargas de machine learning) en instancias punteras basadas en NVIDIA H200.
Según esas informaciones, la p5e.48xlarge —configuración con 8 GPU NVIDIA H200— habría pasado de 34,61 a 39,80 dólares por hora en la mayoría de regiones, mientras que la p5en.48xlarge subiría de 36,18 a 41,61 dólares por hora. Si se confirma el cambio de manera sostenida, la subida no es menor: en proyectos de entrenamiento o inferencia intensiva, un 15 % puede mover el presupuesto de un trimestre completo, sobre todo en equipos que ya trabajan con márgenes ajustados o compromisos de capacidad por hitos.
Qué se está encareciendo exactamente: reservar GPU, no solo “usar GPU”
La clave está en el producto afectado: Capacity Blocks for ML no es el on-demand clásico, sino un mecanismo para reservar capacidad de GPU por adelantado con una ventana de planificación, pensado para evitar el “no hay stock” cuando llega el momento crítico (entrenamientos largos, picos de inferencia, lanzamientos o pruebas a escala). AWS presenta estos bloques como una forma de reservar instancias de GPU con antelación y con duraciones que pueden ir desde periodos cortos hasta compromisos más amplios, precisamente para dar certidumbre en entornos donde la demanda es volátil y el riesgo de quedarse sin capacidad es real.
En paralelo, AWS deja claro que los precios de estos bloques pueden actualizarse: en su documentación pública de precios se indica que las tarifas se ajustan (y se muestran como una combinación de reservation fee y operating system fee), un matiz importante porque normaliza que haya cambios sin una “nota de prensa” como tal.
Por qué duele más en 2026: el “tier premium” de la IA ya no es opcional
Lo relevante no es solo el porcentaje, sino el tipo de instancia. Las familias P5e y P5en se han convertido en una referencia para cargas de IA de alto nivel. AWS las posiciona como infraestructura para entrenar y desplegar LLM y modelos generativos, con configuraciones que llegan a 8 H200 por instancia y un perfil orientado a rendimiento, red y escalabilidad en clúster (UltraClusters). Esto ya no es “capricho de laboratorio”: es la capa base de muchos productos comerciales.
Además, AWS diferencia entre P5e y P5en en aspectos críticos para rendimiento distribuido. En su propia descripción del producto, P5en se asocia a mejoras de plataforma (CPU, conectividad y latencia) destinadas a optimizar escenarios de entrenamiento distribuido y comunicaciones. Traducido: no se paga solo por la GPU, se paga por todo el ecosistema que evita cuellos de botella cuando se entrenan modelos grandes en paralelo.
La parte incómoda: el precio puede moverse cuando más lo necesitas
El detalle que más irritación genera en la comunidad —y que explica el tono de “esperando que no te dieras cuenta”— no es que exista pricing power, sino cómo se percibe el cambio: ajustes en fin de semana, variaciones detectadas por terceros y sensación de opacidad operativa. En mercados con tanta concentración, el cliente teme el escenario en el que el proveedor sube precios justo cuando el proyecto está “locked-in”: modelos entrenados, pipelines montados, dependencias con servicios gestionados, datos en un ecosistema concreto y deadlines que no perdonan.
Aquí aparece un patrón que cada vez se comenta más en el sector: la IA está creando un “peaje” por capacidad. No solo por consumo, también por disponibilidad garantizada. Y cuando se compite por la misma energía, el mismo espacio y la misma cadena de suministro, los hiperescalares tienden a trasladar tensiones de coste a los productos donde la demanda es más inelástica.
Qué deberían vigilar las empresas a partir de ahora
- Separar coste por hora de coste por resultado: en IA, lo decisivo es el coste por entrenamiento completado, por millón de tokens inferidos o por experimento útil. Una subida del 15 % puede ser asumible si reduce riesgo de quedarse sin capacidad, pero puede ser devastadora si el proyecto ya iba sobredimensionado.
- Revisar la estrategia de “reserva vs. elasticidad”: Capacity Blocks compra tranquilidad, pero también introduce dependencia del precio del proveedor en el momento de reservar. En escenarios con alta incertidumbre, puede tener sentido combinar reservas mínimas con elasticidad (u opciones multi-proveedor).
- Auditar precios de forma continua: si el coste puede cambiar, la gobernanza también debe cambiar. FinOps deja de ser un “dashboard” y pasa a ser un proceso: alertas, presupuestos dinámicos, límites y escenarios alternativos.
- Comparar con otras rutas: desde instancias equivalentes en otros hiperescalares hasta soluciones bare metal o acuerdos de capacidad en proveedores regionales. No siempre será más barato, pero sí puede ser más predecible.
Preguntas frecuentes
¿Qué son los EC2 Capacity Blocks for ML y en qué se diferencian del on-demand?
Son bloques de capacidad que permiten reservar instancias de GPU con antelación para cargas de machine learning. A diferencia del on-demand, buscan reducir el riesgo de no encontrar capacidad cuando se necesita.
¿Qué GPUs llevan las instancias p5e.48xlarge y p5en.48xlarge?
AWS indica que P5e y P5en están basadas en NVIDIA H200 y que estas configuraciones pueden llegar a 8 GPU H200 por instancia.
¿Subir el precio de los Capacity Blocks implica que también suba el precio del resto de instancias GPU?
No necesariamente. Capacity Blocks es un producto específico de reserva/garantía de capacidad. Aun así, en un mercado tensionado, los ajustes pueden terminar reflejándose en otras capas de pricing según evolucione la demanda.
¿Cómo mitigar el impacto de subidas de precio en proyectos de IA?
Con prácticas de FinOps (alertas, presupuestos y métricas por resultado), optimización de eficiencia (batching, cuantización, mejores pipelines) y estrategias de resiliencia (multi-región, multi-proveedor o contratos alternativos).