Microsoft presenta Maia 200: el acelerador de inferencia con el que quiere abaratar la “economía del token”

Microsoft ha desvelado Maia 200, su nuevo acelerador de inferencia (generación de tokens) diseñado para mejorar de forma notable el coste y la eficiencia de ejecutar modelos de IA a gran escala en centros de datos. La compañía lo enmarca como una pieza central de su infraestructura heterogénea para servir múltiples modelos —incluyendo los GPT-5.2 de OpenAI— dentro de Microsoft Foundry y Microsoft 365 Copilot.

El anuncio llega en un momento en el que la industria está dejando de medir el liderazgo solo por “FLOPS brutos” y empieza a priorizar la relación rendimiento/€, la capacidad de memoria, la eficiencia energética y el movimiento de datos. En ese tablero, Microsoft busca dos ventajas: reducir el coste de inferencia (donde se dispara el gasto operativo) y controlar parte de la cadena tecnológica (silicio + red + software) para ganar margen de optimización.


Qué promete Maia 200 y por qué es relevante

Según Microsoft, Maia 200 está fabricado en 3 nm y está optimizado para precisiones bajas (FP8/FP4), hoy habituales en inferencia a gran escala. La compañía destaca tres pilares:

  1. Cómputo de baja precisión para maximizar throughput de tokens.
  2. Subsistema de memoria rediseñado para alimentar modelos grandes sin estrangular la ejecución.
  3. Red y transporte a escala apoyados en Ethernet para escalar clústeres densos sin depender de una malla propietaria.

En paralelo, Microsoft confirma despliegues iniciales en su región US Central (zona de Des Moines, Iowa) y una siguiente ola en US West 3 (zona de Phoenix, Arizona), con expansión posterior a más regiones.


Especificaciones destacadas

Microsoft publica cifras muy concretas y posiciona el chip como un salto significativo en su propia flota de inferencia:

  • Más de 140.000 millones de transistores
  • 216 GB de HBM3e con 7 TB/s de ancho de banda
  • 272 MB de SRAM en chip
  • Rendimiento pico por chip: >10 petaFLOPS en FP4 y >5 petaFLOPS en FP8
  • Envolvente térmica: 750 W (TDP SoC)
  • Afirmación de ≈30% mejor rendimiento por dólar frente al hardware más reciente desplegado en su flota (según Microsoft).

Además, la compañía compara (como afirmación propia) el rendimiento pico de Maia 200 con alternativas de otros hiperescalares, especialmente en FP4/FP8.


Tabla de funciones y capacidades de Maia 200

ÁreaQué incorpora Maia 200Qué aporta en operaciones reales
Nodo de fabricación3 nmMejor densidad y eficiencia para cargas sostenidas
Precisión nativaTensor cores FP8/FP4Más tokens por vatio/€ en inferencia moderna
Memoria216 GB HBM3e / 7 TB/s + 272 MB SRAMMenos “hambre” de datos y mayor utilización del acelerador
Movimiento de datosMotores dedicados (DMA/NoC y rutas optimizadas)Reduce cuellos de botella al alimentar modelos grandes
EscaladoDiseño de scale-up en dos niveles sobre Ethernet (enfoque cloud)Escalar clústeres densos sin una interconexión propietaria
Integración en DCTelemetría, diagnósticos y gestión integrados en el control planeOperación más predecible a escala (observabilidad y fiabilidad)
ToolchainMaia SDK (PyTorch, compilador Triton, librería de kernels, lenguaje de bajo nivel, simulador y calculadora de coste)Portabilidad más rápida y optimización con control fino cuando haga falta
Casos internosFoundry/Copilot, generación de datos sintéticos y RL en equipos internosAlinea silicio con pipelines reales de producción y mejora continua

(La disponibilidad y el alcance final dependen del programa y del despliegue regional anunciados por Microsoft).


Un punto clave: “no solo FLOPS”, también alimentación y red

En inferencia, el acelerador puede sobrar de cómputo… y aun así rendir menos si la memoria y la red no sostienen el ritmo de datos. Microsoft insiste en que Maia 200 ataca exactamente ese problema: un subsistema de memoria centrado en datatypes de baja precisión y un diseño de comunicaciones para colectivos y escalado de clúster.

A nivel de desarrollo, Microsoft también pone el foco en el Maia SDK, con integración en PyTorch y una vía de optimización basada en Triton, además de herramientas de simulación y cálculo de coste para afinar eficiencia antes de desplegar.


Preguntas frecuentes

¿Para qué sirve Maia 200: entrenamiento o inferencia?
Microsoft lo presenta específicamente como un acelerador orientado a inferencia, es decir, a servir modelos y generar tokens de forma eficiente.

¿Por qué FP4 y FP8 importan tanto en 2026?
Porque gran parte de la inferencia moderna se apoya en precisiones bajas para aumentar throughput y reducir coste energético, manteniendo una calidad aceptable con técnicas de cuantización.

¿Qué diferencia aporta tener 216 GB de HBM3e?
Permite alojar modelos grandes (o porciones mayores de ellos) con menos “tráfico” hacia memoria externa y reduce cuellos de botella de ancho de banda, elevando la utilización real del chip.

¿El software es propietario o se integra con herramientas comunes?
Microsoft destaca una ruta “natural” desde PyTorch, con compilación/optimización vía Triton y opciones de programación de bajo nivel para quien necesite exprimir el hardware.

Microsoft Azure Maia 200: Scott Guthrie EVP

vía: blogs.microsoft

encuentra artículos

newsletter

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

LO ÚLTIMO

Las últimas novedades de tecnología y cloud

Suscríbete gratis al boletín de Revista Cloud. Cada semana la actualidad en tu buzón.

Suscripción boletín
×