Oracle ha desvelado Oracle Cloud Infrastructure (OCI) Zettascale10, su nueva generación de “superordenadores” de IA en la nube. La compañía afirma que estos clústeres conectan cientos de miles de GPUs NVIDIA a través de múltiples centros de datos, sumando capacidad multigigavatio y alcanzando picos de hasta 16 zettaFLOPS de rendimiento teórico. Zettascale10 es el tejido de cómputo que subyace al superclúster insignia desarrollado junto a OpenAI en Abilene (Texas), dentro del programa Stargate.
Según Oracle, la clave está en su arquitectura de red Oracle Acceleron RoCE (RoCEv2) de baja latencia GPU-GPU, combinada con la infraestructura de IA de NVIDIA. El objetivo: escala masiva, coste/rendimiento competitivo, mejor utilización del clúster y alta fiabilidad para entrenamientos e inferencias de modelos a gran escala.
Qué es OCI Zettascale10 (y dónde encaja)
- Rendimiento y escala. Hasta 16 zettaFLOPS (pico) y despliegues multigigavatio de potencia IT alojados en macro-campus diseñados para densidad extrema en un radio de 2 kilómetros, reduciendo la latencia entre GPUs para entrenamientos de gran tamaño.
- Tejido de clúster. Oracle Acceleron RoCE prioriza latencia uniformemente baja y ancho de banda GPU-GPU a escala, con planos de red físicos y lógicos aislados que permiten desviar tráfico ante congestión o fallos sin reiniciar trabajos.
- Colaboración con OpenAI. La arquitectura se desarrolló y desplegó primero en Abilene (Texas) para el superclúster Stargate conjunto de Oracle y OpenAI.
- Precio/rendimiento y soberanía. Oracle posiciona Zettascale10 como base de IA industrializada, con opciones para operar en su nube distribuida y controles de soberanía de datos/IA.
“Con OCI Zettascale10 fusionamos nuestra arquitectura de red Oracle Acceleron RoCE con infraestructura de IA de nueva generación de NVIDIA para ofrecer capacidad multigigavatio a una escala sin precedentes”, señaló Mahesh Thiagarajan, EVP de Oracle Cloud Infrastructure.
Cómo pretende lograrlo: Acceleron RoCE y diseño de red “ancho, poco profundo y resiliente”
Oracle describe cinco pilares técnicos para Zettascale10:
- Fabric ancho, poco profundo y resiliente. La GPU NIC actúa como mini-switch y se conecta a múltiples planos físicos y lógicos aislados, reduciendo niveles de la red, costes y consumo, y aumentando la escala.
- Mayor fiabilidad. El tráfico migra automáticamente a planos estables, evitando reinicios y perdida de checkpoints en entrenamientos largos.
- Rendimiento consistente. Al eliminar un nivel respecto a diseños tradicionales de tres capas, se busca latencia GPU-GPU más uniforme y predecible.
- Óptica más eficiente. Con Linear Pluggable Optics (LPO) y Linear Receiver Optics (LRO), pretende recortar costes de red y refrigeración manteniendo 400G/800G de throughput, liberando más presupuesto de potencia para cómputo.
- Flexibilidad operativa. Mantenimiento por plano e independencia de NOS para reducir paradas y acelerar despliegue de mejoras.
Tamaño del clúster, disponibilidad y público objetivo
- Objetivo de despliegue inicial: hasta 800.000 GPUs NVIDIA por clúster, con rendimiento predecible y coste eficiente, según Oracle.
- Pedidos y fechas: pedidos abiertos desde hoy; disponibilidad prevista para la segunda mitad del próximo año natural.
- Casos de uso: entrenamiento de modelos fundacionales de gran tamaño, serving e inferencias de alto rendimiento y escala, consolidación de pipelines de IA de investigación a producción.
“OCI Zettascale10 aporta el tejido de cómputo que hace falta para avanzar el estado del arte en IA y pasar de la experimentación a una IA industrializada”, afirmó Ian Buck, VP de Hyperscale en NVIDIA.
Contexto: la carrera por la IA a escala “gigavatio”
La industria camina hacia campos de datos de gigavatios con múltiples cientos de miles de GPUs por emplazamiento para entrenar e inferir modelos multimodales de nueva generación. En ese escenario, el tejido de red —su latencia, ancho de banda efectivo y fiabilidad— determina tanto como las propias GPUs la velocidad de convergencia, el coste total y la utilización real del clúster.
El enfoque de Oracle combina:
- Macro-campus densificados para minimizar saltos físicos y latencia.
- Diseño de red multiestrato con planos aislados y óptica lineal para eficiencia energética.
- Nube distribuida para clientes que requieren controles de soberanía de datos y modelos.
Lo que falta por conocer
- Mix de GPU exacto (generación/modelo) y capacidad efectiva sostenida (más allá del pico teórico).
- Métricas de escala real en producción (utilización media, fallos por plano, job turnaround, coste por token/imagen que se pueda publicar).
- Política de acceso (tenancy dedicado, bare metal compartido, colas) y SLAs específicos por tamaño de trabajo.
- Huella energética y medidas de eficiencia térmica por campus (PUE, gestión de calor, reutilización).
Oracle matiza que las declaraciones sobre tiempos, features y precios son orientativas (descargos de “forward-looking statements” y “future product”).
Por qué importa
Si Oracle cumple lo anunciado, Zettascale10 añade a la competencia un tejido de IA a escala zettaFLOPS con latencia GPU-GPU muy baja y operación más resiliente por diseño. Para clientes que buscan industrializar IA —pasar de pilotos a servicios a gran escala—, la combinación de capacidad, soberanía, precio/rendimiento y predictibilidad operativa puede decantar decisiones en un mercado donde disponibilidad de GPUs y tejido de red son cuellos de botella.
Preguntas frecuentes
¿Qué es exactamente OCI Zettascale10?
Una arquitectura de clúster de IA en la nube de Oracle que agrega cientos de miles de GPUs NVIDIA a través de múltiples centros de datos en macro-campus densos, con picos de hasta 16 zettaFLOPS y capacidad multigigavatio.
¿Qué aporta Oracle Acceleron RoCE frente a redes tradicionales?
Un fabric “ancho y poco profundo” con planos aislados que redistribuye tráfico ante incidentes, reduce niveles de red (menor latencia y coste) y busca rendimiento consistente en entrenamientos a gran escala.
¿Cuándo estará disponible y a qué escala?
Oracle acepta pedidos ya y prevé disponibilidad en la segunda mitad del próximo año, con clústeres de hasta 800.000 GPUs en el lanzamiento.
¿Cuál es el vínculo con OpenAI y Stargate?
Zettascale10 es el tejido base del superclúster de Abilene (Texas) que Oracle y OpenAI operan dentro del programa Stargate, y sobre el que planean seguir escalando.
¿Qué ventajas promete en coste/rendimiento y energía?
Oracle apunta a precio/rendimiento competitivo y mejor utilización del clúster, apoyándose en óptica lineal (LPO/LRO) y diseños de red que reducen consumo en la parte de interconexión para volcar más potencia en cómputo.