
NVIDIA y OpenAI llevan la inferencia a 1,5 millones de tokens por segundo con los modelos gpt-oss sobre la arquitectura Blackwell
NVIDIA y OpenAI han dado un nuevo salto en el rendimiento de la inteligencia artificial con el lanzamiento de los modelos gpt-oss-20b y gpt-oss-120b de código abierto y pesos abiertos, optimizados para la arquitectura Blackwell. Según datos de la compañía, el modelo más grande alcanza hasta 1,5 millones de tokens por segundo (TPS) en un sistema NVIDIA GB200 NVL72, lo que equivaldría a dar servicio a unos 50.000 usuarios concurrentes. Estos modelos, centrados en el razonamiento textual, integran capacidad de chain-of-thought y llamadas a herramientas, apoyándose en una arquitectura Mixture of Experts (MoE) con activaciones SwigGLU. Incorporan capas de atención con RoPE para contextos de hasta 128.000 tokens, alternando entre atención completa y una ventana deslizante de 128 tokens. Ambas