NVIDIA ha dado un paso que apunta directamente al corazón de la próxima ola de software: los sistemas multiagente. La compañía ha anunciado Nemotron 3, una nueva familia de modelos abiertos —en tamaños Nano, Super y Ultra— acompañada de datasets y librerías para entrenamiento y postentrenamiento, con un objetivo claro: que desarrollar agentes especializados sea más barato, más transparente y más fácil de llevar a producción.
La narrativa no es casual. El mercado está dejando atrás el “chatbot único” y abrazando arquitecturas donde varios agentes se reparten tareas, se coordinan y se corrigen entre sí. Pero esa coordinación tiene un precio: más tokens, más latencia, más costes de inferencia y más riesgo de “deriva de contexto” cuando los flujos se alargan. En ese escenario, NVIDIA busca que su propuesta combine dos promesas que no siempre van de la mano: eficiencia y apertura.
Un MoE “híbrido” para bajar costes en el mundo multiagente
La pieza técnica que sostiene el anuncio es una arquitectura hybrid latent mixture-of-experts (MoE). En términos prácticos, significa que el modelo no “enciende” todo su tamaño en cada token, sino que activa una parte —los “expertos”— para resolver lo que toca en ese momento. NVIDIA asegura que esta aproximación permite que Nemotron 3 Nano alcance hasta 4× más throughput que Nemotron 2 Nano, y que reduzca la generación de tokens de razonamiento hasta en un 60%, con el foco puesto en abaratar flujos largos y sistemas con muchos agentes concurrentes.
Esa eficiencia es especialmente relevante en empresas que están construyendo routers de modelos: usar un modelo propietario muy potente para tareas puntuales de alto valor, y descargar el resto del trabajo (resúmenes, extracción, clasificación, soporte interno, recuperación de información) a modelos abiertos más controlables y con costes predecibles. NVIDIA insiste en que la “tokenómica” —cuánto cuesta realmente operar un agente— se está convirtiendo en una variable estratégica.
Tres tamaños: Nano ya; Super y Ultra en 2026
La familia llega en tres escalones:
- Nemotron 3 Nano: un modelo de 30.000 millones de parámetros que activa hasta 3.000 millones por token. Es el que NVIDIA posiciona como “caballo de batalla” para tareas eficientes: depuración de software, resúmenes, flujos de asistente e IR (búsqueda/recuperación) con bajo coste.
- Nemotron 3 Super: orientado a razonamiento de alta precisión para aplicaciones multiagente, con ~100.000 millones de parámetros y hasta 10.000 millones activos por token.
- Nemotron 3 Ultra: pensado como motor de razonamiento para tareas complejas, con ~500.000 millones de parámetros y hasta 50.000 millones activos por token.
En disponibilidad, NVIDIA marca una frontera clara: Nano está disponible desde ya, mientras que Super y Ultra se esperan en la primera mitad de 2026.
Y aquí aparece un dato que, para algunos casos de uso, vale casi más que el tamaño: Nemotron 3 Nano presume de una ventana de contexto de 1.000.000 de tokens, una cifra que apunta a flujos largos, memoria operativa y tareas multietapa donde el modelo necesita “aguantar” mucho historial sin desintegrarse.
“No es solo un modelo”: datasets y librerías para entrenar agentes
El anuncio no se limita a pesos abiertos. NVIDIA afirma ser “la primera” en publicar un paquete completo de modelos + datasets + entornos/librerías de reinforcement learning orientado a crear agentes especializados con precisión y eficiencia. En concreto, habla de tres billones (trillion) de tokens en datasets de pretraining, post-training y RL, además de un Nemotron Agentic Safety Dataset para evaluar y fortalecer la seguridad en sistemas de agentes complejos.
En el lado de herramientas, la compañía lanza NeMo Gym y NeMo RL como librerías open source para entornos de entrenamiento y postentrenamiento, junto con NeMo Evaluator para validar seguridad y rendimiento. Todo ello, publicado en GitHub y Hugging Face, con integraciones citadas con actores del ecosistema.
Ecosistema y despliegue: del portátil al “enterprise”
NVIDIA intenta que Nemotron 3 no se quede en laboratorio. En la lista de compatibilidad y distribución aparecen herramientas y runtimes muy usados: LM Studio, llama.cpp, SGLang y vLLM.
También detalla disponibilidad de Nemotron 3 Nano en Hugging Face y a través de proveedores de inferencia como Baseten, DeepInfra, Fireworks, FriendliAI, OpenRouter y Together AI, entre otros.
Para entornos corporativos, NVIDIA añade un carril propio: NVIDIA NIM como microservicio para despliegue “en cualquier infraestructura acelerada por NVIDIA”, con el discurso habitual de privacidad y control.
Y, en paralelo, destaca adopciones tempranas en empresas y consultoras (desde integradores a plataformas software) como señal de que el modelo está pensado para entrar en flujos reales, no solo en demos.
Qué significa esto para el mercado (y por qué ahora)
Nemotron 3 llega en un momento en el que muchas organizaciones han descubierto una verdad incómoda: los agentes funcionan, pero la factura también. Cada capa extra de “razonamiento”, cada herramienta conectada y cada vuelta de verificación suma tokens, latencia y riesgo operativo. Si el objetivo es pasar de pilotos a producción, la eficiencia deja de ser un detalle técnico y se convierte en un requisito presupuestario.
NVIDIA apuesta a que el camino intermedio —modelos abiertos eficientes que se ajustan con datasets y RL, y que conviven con modelos propietarios cuando haga falta— será el patrón dominante en 2026. Su jugada es clara: poner un stack abierto con rendimiento competitivo, herramientas de entrenamiento y un discurso de soberanía y control que encaja con regulaciones y estrategias nacionales.
Preguntas frecuentes
¿Qué es Nemotron 3 Nano y para qué tipo de tareas está pensado?
Es el modelo “pequeño” de la familia (30.000 millones de parámetros, con activación parcial tipo MoE) orientado a tareas eficientes como resúmenes, recuperación de información, flujos de asistente y soporte a sistemas multiagente con costes contenidos.
¿Qué aporta una ventana de contexto de 1.000.000 de tokens en un modelo abierto?
Permite sostener flujos largos y multietapa (por ejemplo, agentes que trabajan con documentación extensa o historiales grandes) con menos necesidad de trocear contexto o resumir agresivamente, lo que suele degradar precisión.
¿Cuándo estarán disponibles Nemotron 3 Super y Ultra?
NVIDIA sitúa Super y Ultra para la primera mitad de 2026.
¿Qué herramientas publica NVIDIA para entrenar y evaluar agentes con Nemotron 3?
Además de datasets (incluyendo un conjunto de seguridad para agentes), la compañía lanza NeMo Gym y NeMo RL, junto a NeMo Evaluator, con disponibilidad en GitHub/Hugging Face y soporte en herramientas del ecosistema.