NVIDIA lanza Nemotron 3 Super, su nuevo modelo abierto para agentes

Antonio

NVIDIA ha presentado Nemotron 3 Super, un nuevo modelo abierto de la familia Nemotron orientado a cargas agénticas, razonamiento de largo contexto, uso de herramientas y despliegues empresariales de alto volumen. La compañía lo define como un modelo híbrido Mamba-Transformer MoE con 120.000 millones de parámetros totales, de los que 12.000 millones están activos en inferencia, y con una ventana de contexto de hasta 1 millón de tokens. La presentación se ha producido este 10 y 11 de marzo a través de la web de investigación de NVIDIA, su blog para desarrolladores, NIM y Hugging Face.

El anuncio importa porque llega en un momento en el que el mercado de la Inteligencia Artificial abierta ya no gira solo en torno a chatbots o modelos generales, sino a sistemas capaces de planificar, llamar herramientas, mantener contexto durante sesiones largas y operar como base de agentes. Ahí es donde NVIDIA quiere colocar a Nemotron 3 Super: no como un simple competidor más en la carrera de los LLM, sino como una pieza específicamente diseñada para flujos agénticos complejos, RAG, automatización de tickets, programación y razonamiento extendido.

Un modelo pensado para contexto largo y eficiencia real

Uno de los rasgos más llamativos de Nemotron 3 Super es su arquitectura. NVIDIA explica que el modelo utiliza un enfoque LatentMoE que mezcla capas Mamba-2, MoE y algunas capas de atención, además de incorporar Multi-Token Prediction (MTP) para acelerar la generación. La compañía sostiene que esta combinación le permite mejorar la eficiencia de memoria y cómputo, al tiempo que mantiene capacidad de razonamiento avanzada y soporte para contextos muy largos. En su documentación oficial, NVIDIA subraya además que esta es la primera versión “Super” de la familia Nemotron 3 en incorporar LatentMoE, MTP y preentrenamiento en NVFP4.

La cifra del millón de tokens es probablemente la que más titulares va a generar. NVIDIA asegura que Nemotron 3 Super soporta hasta 1M de contexto y que, en pruebas de largo contexto como RULER, supera a modelos abiertos como GPT-OSS-120B y Qwen3.5-122B a esa escala. En paralelo, su blog para desarrolladores afirma que esta ventana tan amplia busca evitar la pérdida de estado en sistemas agénticos y reducir el llamado “goal drift”, un problema bastante habitual cuando un agente tiene que mantener una tarea compleja durante muchas interacciones.

Ese posicionamiento no es menor. En la práctica, una ventana de contexto tan grande puede resultar especialmente útil en agentes que deban trabajar con documentación extensa, historiales largos, múltiples herramientas o cadenas de razonamiento prolongadas. Eso no significa que el modelo vaya a ser automáticamente mejor en todos los escenarios, pero sí que NVIDIA está atacando uno de los cuellos de botella más visibles del software agéntico actual: la necesidad de mantener mucha información relevante sin degradar el comportamiento ni disparar el coste operativo.

Lo que NVIDIA promete en rendimiento y despliegue

NVIDIA no se ha limitado a la arquitectura. También ha publicado comparativas de rendimiento y eficiencia para reforzar el lanzamiento. En su página oficial de investigación sostiene que Nemotron 3 Super logra hasta 2,2 veces más throughput de inferencia que GPT-OSS-120B y hasta 7,5 veces más que Qwen3.5-122B en una configuración de entrada de 8K tokens y salida de 16K tokens, además de ofrecer precisión comparable o superior en varios benchmarks. Son cifras procedentes de NVIDIA y, por tanto, deben leerse como resultados del propio fabricante más que como una validación independiente final. Aun así, ayudan a entender cómo quiere colocar el modelo en el mercado: como una opción abierta y eficiente para cargas de agentes a gran escala.

En la ficha oficial del modelo también aparecen detalles prácticos relevantes. NVIDIA ofrece variantes como BF16 y FP8, con diferentes requisitos mínimos de hardware. Por ejemplo, el modelo en BF16 figura con un requisito mínimo de 8 H100 de 80 GB, mientras que la variante FP8 reduce ese umbral a 2 H100 de 80 GB. También se indica que el modelo soporta varios idiomas, entre ellos español, y que está pensado para flujos de trabajo agénticos, razonamiento de largo contexto, uso de herramientas y sistemas RAG.

Otro detalle que puede interesar a equipos de producto y de infraestructura es la licencia. NVIDIA lo presenta como un modelo “open” bajo la NVIDIA Nemotron Open Model License, y tanto en NIM como en Hugging Face insiste en que está listo para uso comercial dentro de esos términos. Esa combinación —modelo abierto, contexto muy largo, orientación a agentes y posibilidad de despliegue empresarial— explica por qué Nemotron 3 Super puede atraer tanto a compañías como a proyectos open source que buscan alternativas a modelos cerrados de gran contexto.

Por qué puede interesar a asistentes abiertos y marcos agénticos

Aunque parte de la conversación pública alrededor del lanzamiento lo ha vinculado a herramientas como OpenClaw, lo cierto es que el encaje más razonable no depende de una sola aplicación, sino de un tipo de sistema. OpenClaw, según su repositorio oficial, es un asistente personal open source que puede funcionar en múltiples canales y dispositivos. Un modelo como Nemotron 3 Super, con foco en agentes, tool use y contexto extenso, encaja sobre el papel con ese tipo de arquitecturas, igual que con otros asistentes abiertos, sistemas RAG complejos o flujos multiagente. Esa lectura es una inferencia razonable a partir de las capacidades públicas del modelo y del tipo de producto que describe OpenClaw.

Eso sí, conviene no exagerar. El hecho de que un modelo tenga un gran contexto o una arquitectura eficiente no garantiza por sí solo que vaya a ser la mejor opción para todos los agentes. En despliegues reales cuentan también la calidad del fine-tuning, la latencia, el coste por token, la estabilidad del tool calling, la facilidad de servirlo y el comportamiento en tareas concretas. Lo que sí parece claro es que NVIDIA está intentando ocupar un espacio donde hasta hace poco dominaban otros laboratorios: el de los modelos abiertos de alto nivel orientados específicamente a agentes.

En conjunto, Nemotron 3 Super representa algo más que una iteración de catálogo. Es una señal de que el mercado abierto de la Inteligencia Artificial está entrando en una nueva fase, donde el tamaño bruto ya no basta y donde pesan mucho más la eficiencia, la longitud de contexto, la integración con tool use y la capacidad de servir como columna vertebral de agentes complejos. Y en ese terreno, NVIDIA quiere dejar claro que no solo vende GPUs: también quiere competir con modelo propio.

Preguntas frecuentes

¿Qué es NVIDIA Nemotron 3 Super?

Es un nuevo modelo abierto de NVIDIA orientado a razonamiento agéntico, tool use, RAG y tareas de largo contexto, con 120B parámetros totales, 12B activos y hasta 1 millón de tokens de contexto.

¿Qué arquitectura usa Nemotron 3 Super?

NVIDIA indica que usa una arquitectura híbrida LatentMoE que combina Mamba-2, MoE y capas de atención, además de Multi-Token Prediction para acelerar la inferencia.

¿Cuántas GPU necesita Nemotron 3 Super?

Depende de la variante. La ficha oficial señala 8× H100-80GB para BF16 y 2× H100-80GB para FP8 como requisitos mínimos orientativos.

¿Puede usarse Nemotron 3 Super en asistentes abiertos como OpenClaw?

Sobre el papel sí puede encajar, porque OpenClaw es un asistente open source y Nemotron 3 Super está optimizado para agentes, tool use y contexto largo. Aun así, la elección final depende del rendimiento real, la latencia, el coste y la integración concreta del sistema.