NVIDIA afronta el debate del coste real de la IA antes de Vera Rubin

NVIDIA sigue siendo la compañía que marca el ritmo de la infraestructura de inteligencia artificial, pero el debate dentro del mercado empieza a cambiar. La pregunta ya no es solo si sus GPU son las más potentes o si su ecosistema software sigue siendo el más completo. La discusión que gana peso entre clientes, analistas e ingenieros es más incómoda: cuánto cuesta realmente ejecutar IA a gran escala cuando se suman chips, energía, refrigeración, red, integración, mantenimiento y dependencia del proveedor.

Un informe de Evercore ISI, citado en la información de partida, pone el foco en esa tensión. Según el análisis, la afirmación de NVIDIA sobre una ventaja de hasta 35 veces en coste total de propiedad no convence del todo al ingeniero medio de IA. También detecta una percepción extendida de que los márgenes brutos de la compañía, superiores al 70 %, son demasiado altos. El mensaje no implica que NVIDIA esté perdiendo su liderazgo, pero sí que parte del mercado busca alternativas «suficientemente buenas» o ASICs propios para mejorar la economía de sus despliegues.

El coste por token ya no se mide solo en GPU

La promesa central de NVIDIA para su próxima generación Vera Rubin es clara: más rendimiento y menor coste por token. En su documentación oficial, la compañía afirma que Vera Rubin NVL72 ofrecerá inferencia de IA a una décima parte del coste por millón de tokens frente a Blackwell y entrenamiento con una cuarta parte de las GPU. Es una mejora potente sobre el papel, especialmente en un mercado donde la inferencia agéntica empieza a multiplicar llamadas, consultas, contexto y uso de herramientas.

El problema es que los grandes compradores de infraestructura no miran únicamente el chip. Algunos hiperescalares, según Evercore ISI, cuestionan que los cálculos de ventaja de TCO recojan bien el consumo eléctrico alrededor del acelerador, incluida la refrigeración. Esa parte puede representar entre el 30 % y el 50 % de los costes generales de operación, de acuerdo con el extracto del informe.

Ese matiz cambia la conversación. Un acelerador puede ser mucho más eficiente en cálculo, pero el coste total de un rack de IA depende también de la alimentación eléctrica, la refrigeración líquida, los switches, la óptica, el almacenamiento, la ocupación en centro de datos, la disponibilidad de técnicos, el software y los contratos de soporte. En una AI factory real, la GPU no trabaja sola.

Magnitud claveDato disponible
Margen bruto GAAP de NVIDIA en Q4 FY202675,0 %
Margen bruto non-GAAP de NVIDIA en Q4 FY202675,2 %
Ingresos de NVIDIA en Q4 FY202668.127 millones de dólares
Ingresos de Data Center en Q4 FY202662.314 millones de dólares
Ventaja oficial anunciada por NVIDIA para Vera Rubin NVL721/10 del coste por millón de tokens frente a Blackwell
Peso estimado de energía y refrigeración en overhead operativo, según Evercore ISI30-50 %
Llegada esperada de Vera Rubin a hiperescalares, según Evercore ISI2T 2026
Acceso esperado para OEM empresariales, según Evercore ISIseptiembre-octubre de 2026

Los márgenes explican parte de la presión. NVIDIA cerró su cuarto trimestre fiscal de 2026 con un margen bruto GAAP del 75,0 % y un margen non-GAAP del 75,2 %, en un trimestre de ingresos récord de 68.127 millones de dólares. Su negocio de centros de datos alcanzó 62.314 millones de dólares en ese mismo periodo, lo que confirma hasta qué punto la compañía se ha convertido en el proveedor dominante de la infraestructura de IA.

Por qué los ASICs vuelven a entrar en la conversación

La disposición a usar ASICs o alternativas «good enough» no es nueva, pero gana fuerza cuando los costes escalan. Los grandes operadores cloud, los laboratorios de IA y algunas plataformas de consumo tienen suficiente volumen como para justificar chips a medida, siempre que el ahorro compense el esfuerzo de diseño, integración y software.

Google lleva años con sus TPU. Amazon tiene Trainium e Inferentia. Microsoft ha desarrollado Maia. Meta trabaja en sus propios aceleradores. La idea no es sustituir a NVIDIA de un día para otro, sino reducir dependencia en cargas concretas, especialmente inferencia estable, modelos internos, recomendación, ranking, búsqueda o tareas donde la flexibilidad de CUDA y del ecosistema NVIDIA no sea tan determinante.

NVIDIA conserva una ventaja difícil de replicar. Sus GPU no son solo silicio. Son CUDA, librerías, compiladores, redes, sistemas completos, referencia arquitectónica, disponibilidad de talento y una cadena de socios que reduce riesgos para quien necesita desplegar rápido. Pero cuanto mayor sea el gasto en IA, más presión habrá para optimizar cada capa.

La inferencia agéntica intensifica esa presión. Los agentes de IA no generan una respuesta única y se detienen. Pueden consultar bases de datos, ejecutar código, abrir sandboxes, buscar documentos, llamar a herramientas y repetir pasos hasta completar una tarea. Eso eleva el consumo de tokens y también la carga sobre CPU, memoria, red y almacenamiento. Por eso Vera, la CPU de NVIDIA para agentes, aparece como una pieza importante dentro de Vera Rubin: no todo el trabajo agéntico se resuelve en la GPU.

Evercore ISI apunta además que no se observan problemas relevantes en la preparación de los hiperescalares para la producción masiva de Rubin. Esa parte del informe es favorable para NVIDIA. Si Vera Rubin llega a los grandes clientes en el segundo trimestre de 2026 y después a los OEM empresariales en septiembre u octubre, la compañía podrá defender su narrativa con hardware real y no solo con presentaciones.

El reto: demostrar el TCO en despliegues reales

La clave estará en los despliegues de producción. Las promesas de coste por token son útiles para orientar el mercado, pero los clientes medirán resultados con sus propias cargas: modelos de lenguaje, agentes internos, visión, recomendación, analítica, entrenamiento, fine-tuning, bases de datos vectoriales y pipelines de datos.

Ahí pueden aparecer diferencias importantes. Un laboratorio de IA que entrena modelos frontera valorará memoria, interconexión y rendimiento extremo. Un banco que ejecuta agentes internos quizá priorice seguridad, latencia, gobierno del dato y previsibilidad de costes. Un hiperescalares buscará coste por token, densidad por rack, eficiencia energética y capacidad de operar decenas de miles de chips sin cuellos de botella. Un OEM empresarial tendrá que empaquetar todo eso en sistemas vendibles, mantenibles y compatibles con centros de datos reales.

NVIDIA intenta anticiparse con Vera Rubin NVL72, una arquitectura de rack completo que combina CPU Vera, GPU Rubin, NVLink, red, refrigeración y diseño modular. Su ventaja está en vender una plataforma cerrada en el buen sentido: piezas diseñadas para trabajar juntas, con menos integración manual y con un ecosistema de software ya conocido por los equipos de IA.

Pero el propio éxito de NVIDIA alimenta la resistencia. Cuando una compañía concentra la infraestructura crítica de un mercado y sostiene márgenes del 70 % o más, sus clientes más grandes tienen incentivos para buscar una segunda fuente. No necesariamente porque la alternativa sea mejor, sino porque tener alternativas mejora el poder de negociación.

El resultado probable no es una sustitución inmediata de NVIDIA, sino una segmentación mayor. Las cargas más exigentes, cambiantes y sensibles al tiempo seguirán usando sus plataformas. Las cargas repetitivas, maduras o muy voluminosas podrían moverse a ASICs propios si el ahorro es claro. Entre ambos extremos aparecerán opciones «suficientemente buenas» de otros proveedores, sobre todo donde el coste energético y la disponibilidad de potencia sean límites más duros que el rendimiento bruto.

Para NVIDIA, Vera Rubin será una prueba importante. Si consigue demostrar mejoras reales en coste por token teniendo en cuenta energía, refrigeración y operación completa, reforzará su posición antes de que los ASICs ganen más terreno. Si la ventaja percibida por los clientes es menor que la presentada por la compañía, el debate sobre márgenes, dependencia y alternativas se hará más intenso.

La IA entra en una fase menos espectacular que la de los grandes anuncios de modelos, pero más decisiva para el negocio: la economía de la infraestructura. Y ahí la pregunta que se harán los compradores no será solo «cuánto rinde», sino «cuánto cuesta mantenerlo funcionando cada día».

Preguntas frecuentes

¿Qué cuestiona el informe de Evercore ISI sobre NVIDIA?
Según la información de partida, el informe señala que la ventaja de TCO comunicada por NVIDIA no convence plenamente a parte de los ingenieros y clientes, y que existe una percepción de márgenes brutos excesivos.

¿Qué es Vera Rubin NVL72?
Es la próxima plataforma de NVIDIA para IA a escala de rack, diseñada para entrenamiento e inferencia avanzada, con CPU Vera, GPU Rubin, memoria, red e interconexión optimizadas.

¿Por qué los hiperescalares buscan ASICs propios?
Porque tienen suficiente volumen para justificar chips especializados que reduzcan costes en cargas concretas, especialmente inferencia masiva y tareas repetitivas donde no siempre hace falta la máxima flexibilidad de una GPU generalista.

¿Está NVIDIA en riesgo inmediato por estas alternativas?
No necesariamente. NVIDIA mantiene una ventaja fuerte en hardware, software y ecosistema. El riesgo está más en la presión sobre precios, márgenes y dependencia de grandes clientes que en una sustitución rápida.

encuentra artículos

newsletter

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

LO ÚLTIMO

Las últimas novedades de tecnología y cloud

Suscríbete gratis al boletín de Revista Cloud. Cada semana la actualidad en tu buzón.

Suscripción boletín
×