NVIDIA ha presentado Nemotron 3 Nano Omni, un modelo abierto multimodal diseñado para que los agentes de inteligencia artificial puedan razonar sobre vídeo, audio, imágenes, documentos y texto dentro de un único sistema. La promesa principal de la compañía es clara: sustituir arquitecturas con varios modelos separados por una sola capa de percepción y razonamiento capaz de reducir latencia, costes y pérdida de contexto.
El lanzamiento apunta a uno de los problemas prácticos de la IA agéntica en empresas. Muchos sistemas actuales usan un modelo para visión, otro para voz, otro para lenguaje y, en algunos casos, más componentes para documentos, interfaces o extracción de datos. Esa fragmentación obliga a hacer varias pasadas de inferencia, aumenta el coste y puede romper el contexto entre lo que se ve, se escucha y se lee. NVIDIA sostiene que Nemotron 3 Nano Omni puede ofrecer hasta 9 veces más throughput que otros modelos omni abiertos con una interactividad comparable.
Un modelo omni para ver, escuchar y razonar en una sola pasada
Nemotron 3 Nano Omni se basa en una arquitectura híbrida Mixture-of-Experts de 30B-A3B, con codificadores de visión y audio integrados. En la práctica, esto permite que un agente procese distintos tipos de entrada sin depender de una cadena de modelos especializados que se pasan información unos a otros.
La diferencia puede ser importante en aplicaciones empresariales reales. Un agente de soporte puede tener que analizar una grabación de pantalla, revisar el audio de una llamada, leer logs y responder con una explicación coherente. Un agente financiero puede necesitar interpretar PDFs, tablas, gráficos, capturas y notas de voz. Si cada parte del proceso se resuelve con un modelo distinto, la latencia sube y el contexto se degrada.
Con Nemotron 3 Nano Omni, NVIDIA intenta concentrar esa fase de percepción en un modelo común. La compañía lo describe como una especie de “ojos y oídos” para sistemas agénticos más amplios, que puede trabajar junto a otros modelos Nemotron, como Nemotron 3 Super para ejecución frecuente o Nemotron 3 Ultra para planificación compleja, además de modelos propietarios de otros proveedores.
El resultado buscado no es sustituir a todos los modelos de un flujo, sino especializar una pieza crítica: la comprensión multimodal rápida. En agentes que interactúan con interfaces gráficas, documentos densos o vídeo, esa capacidad puede marcar la diferencia entre una demo útil y un sistema lento o caro de operar.
Del documento complejo al uso de ordenador
NVIDIA destaca tres grandes áreas de aplicación. La primera es el uso de ordenador, donde el modelo puede ayudar a agentes que navegan por interfaces gráficas, interpretan el contenido de pantalla y razonan sobre el estado de una aplicación a lo largo del tiempo. H Company, una de las empresas que ya lo está utilizando, afirma que sus agentes pueden interpretar grabaciones Full HD con más rapidez, algo relevante para tareas de computer use y automatización de flujos en escritorio.
La segunda es la inteligencia documental. Nemotron 3 Nano Omni puede interpretar documentos, tablas, gráficos, capturas y entradas mixtas, manteniendo una relación más coherente entre estructura visual y texto. Esto encaja con tareas de cumplimiento, análisis financiero, revisión de contratos, procesos internos y reporting corporativo, donde los datos rara vez aparecen como texto limpio y ordenado.

La tercera es la comprensión de audio y vídeo. En atención al cliente, investigación, monitorización o formación, muchos flujos combinan lo que alguien dijo, lo que se mostró en pantalla y lo que quedó documentado después. Un modelo multimodal unificado puede mantener esas piezas dentro de una misma corriente de razonamiento, en lugar de producir resúmenes desconectados de cada fuente.
El interés empresarial se refleja en los nombres mencionados por NVIDIA. Aible, Applied Scientific Intelligence, Eka Care, Foxconn, H Company, Palantir y Pyler figuran entre las compañías que ya están adoptando el modelo, mientras que Dell Technologies, DocuSign, Infosys, K-Dense, Lila, Oracle y Zefr lo están evaluando. Es una lista heterogénea, pero apunta a casos de uso bastante concretos: agentes corporativos, análisis de documentos, automatización, salud, manufactura y flujos de conocimiento.
Abierto, desplegable y pensado para control empresarial
Una parte relevante del anuncio está en el carácter abierto del modelo. NVIDIA afirma que Nemotron 3 Nano Omni se publica con pesos abiertos, datasets y técnicas de entrenamiento, lo que permite a las organizaciones personalizarlo, evaluarlo y desplegarlo con más control. Para empresas reguladas o con requisitos de soberanía de datos, este punto puede pesar tanto como el rendimiento.
El modelo está disponible en Hugging Face, OpenRouter y build.nvidia.com como microservicio NVIDIA NIM, además de llegar a través de socios cloud y plataformas de inferencia. También puede personalizarse con herramientas como NVIDIA NeMo para dominios concretos. La compañía insiste en que la arquitectura permite despliegues desde sistemas locales, como DGX Spark o DGX Station, hasta centros de datos y nubes públicas.
Este enfoque responde a una preocupación creciente. Muchas organizaciones quieren agentes de IA, pero no siempre pueden enviar documentos, vídeos, llamadas o datos internos a servicios cerrados fuera de su control. Un modelo abierto y desplegable en entornos propios ofrece más margen para cumplir políticas internas, requisitos regulatorios o estrategias de localización de datos.
También hay una lectura estratégica para NVIDIA. La compañía no quiere limitarse a vender GPUs. Con Nemotron, NIM, NeMo y su ecosistema de modelos abiertos, está reforzando una capa de software que ayuda a que sus aceleradores sean más útiles y más fáciles de adoptar en producción. Cuanto más se construyan los agentes empresariales sobre modelos y microservicios optimizados para su plataforma, más difícil será separar hardware y software en la decisión de compra.
La promesa de 9 veces más throughput debe leerse como una afirmación de proveedor, ligada a escenarios y comparaciones concretas. Aun así, el problema que intenta resolver es real. Los agentes multimodales necesitan ver, escuchar, leer y actuar con menos esperas. Si cada interacción con una pantalla o un documento requiere varios modelos encadenados, el coste operativo puede escalar rápido.
Nemotron 3 Nano Omni llega precisamente a ese punto de la conversación: no basta con que un modelo entienda varios formatos; debe hacerlo con suficiente velocidad, coste y control para que una empresa lo use de forma continua. La IA agéntica será mucho menos atractiva si cada paso tarda segundos de más o si el gasto de inferencia se dispara con cada documento, vídeo o sesión de escritorio.
Preguntas frecuentes
¿Qué es NVIDIA Nemotron 3 Nano Omni?
Es un modelo abierto multimodal de NVIDIA que combina comprensión de texto, imagen, vídeo y audio para servir como capa de percepción y razonamiento en agentes de IA.
¿Qué significa que ofrezca hasta 9 veces más throughput?
NVIDIA afirma que su arquitectura unificada permite procesar más tareas por unidad de tiempo que otros modelos omni abiertos con interactividad comparable, al evitar varias pasadas por modelos separados.
¿Para qué casos de uso está pensado?
Está orientado a agentes que usan interfaces gráficas, análisis de documentos complejos, comprensión de audio y vídeo, soporte al cliente, cumplimiento, investigación y flujos empresariales multimodales.
¿Dónde se puede usar o desplegar?
NVIDIA indica que está disponible en Hugging Face, OpenRouter y build.nvidia.com como NVIDIA NIM, además de poder desplegarse mediante socios cloud, plataformas de inferencia y sistemas locales compatibles.
vía: wccftech y blogs.nvidia