NVIDIA y Mistral AI se alían para llevar los modelos abiertos Mistral 3 a la era de la “inteligencia distribuida”

La carrera por la inteligencia artificial abierta da un salto importante con el anuncio conjunto de NVIDIA y la francesa Mistral AI. Ambas compañías han presentado la nueva familia de modelos Mistral 3, una serie de modelos multilingües y multimodales de código abierto optimizados de extremo a extremo para la infraestructura de NVIDIA, desde los superclusters con GB200 NVL72 hasta PCs con GPU RTX y dispositivos Jetson en el edge.

La pieza central de este lanzamiento es Mistral Large 3, un modelo mixture-of-experts (MoE) que combina eficiencia y escala: en lugar de activar todas las neuronas en cada token, solo pone en marcha los “expertos” relevantes, reduciendo el coste de cómputo sin sacrificar rendimiento. El objetivo declarado es claro: hacer que la IA empresarial a gran escala sea no solo posible, sino económicamente viable.


Mistral Large 3: 675.000 millones de parámetros pensados para Blackwell

Según los datos técnicos publicados, Mistral Large 3 es un modelo escaso (sparse) con 675.000 millones de parámetros en total, de los que 41.000 millones están activos en cada inferencia, y con una ventana de contexto de 256.000 tokens, pensada para agentes de alto razonamiento, análisis extensos de documentos y flujos multimodales complejos.

El modelo se ha entrenado sobre GPUs NVIDIA Hopper y se ha optimizado de forma específica para la nueva arquitectura Blackwell, en particular para los sistemas NVIDIA GB200 NVL72, que agrupan 72 GPUs de última generación en un único sistema con interconexión NVLink de alta velocidad.

NVIDIA asegura que, con esta combinación de hardware y optimizaciones de software, Mistral Large 3 alcanza hasta 10 veces más rendimiento de inferencia que en la generación anterior H200, superando los 5.000.000 de tokens por segundo y megavatio a unos 40 tokens por segundo por usuario. En términos prácticos, eso significa mejor experiencia de usuario, menor coste por token y mayor eficiencia energética, un aspecto crítico a medida que los modelos de IA se convierten en grandes consumidores eléctricos en centros de datos de todo el mundo.

Este salto se apoya en varias piezas del stack de NVIDIA:

  • Wide Expert Parallelism en TensorRT-LLM, que distribuye y equilibra dinámicamente los expertos del modelo a través del dominio de memoria coherente del NVL72.
  • NVFP4, un formato de baja precisión específico de Blackwell que reduce el cálculo y la memoria manteniendo la precisión necesaria para producción.
  • NVIDIA Dynamo, un marco de inferencia distribuida de baja latencia que desacopla las fases de prefill y decode, optimizando cargas de trabajo de contexto largo.

Ministral 3: modelos compactos para PCs RTX, portátiles y dispositivos Jetson

La apuesta de Mistral y NVIDIA no se queda en el segmento frontier. Junto al modelo grande, la compañía francesa ha lanzado la suite Ministral 3, un conjunto de modelos densos de alto rendimiento con 3.000, 8.000 y 14.000 millones de parámetros, cada uno en variantes Base, Instruct y Reasoning (nueve modelos en total).

Estos modelos se han diseñado para ejecutarse en entornos más modestos pero cada vez más relevantes:

  • PCs y portátiles con GPU GeForce RTX AI PC
  • Estaciones NVIDIA DGX Spark
  • Dispositivos embebidos NVIDIA Jetson, pensados para robótica, edge computing e IoT

NVIDIA ha trabajado con proyectos populares como Llama.cpp y Ollama para que desarrolladores y entusiastas puedan probar Ministral 3 en local, con baja latencia y mayor privacidad de datos. En las GPUs de última generación —como la RTX 5090— se citan cifras de varios cientos de tokens por segundo con los modelos más pequeños, lo que convierte a estos modelos en candidatos claros para asistentes locales, agentes en el edge y aplicaciones desconectadas.


Un ecosistema abierto: Apache 2.0, NeMo y NIM

Una de las claves del anuncio es el énfasis en lo abierto. La familia Mistral 3 se publica con licencia Apache 2.0 y pesos abiertos, permitiendo a empresas y researchers descargar los modelos, afinarlos y desplegarlos en sus propios entornos, sin las restricciones habituales de muchos modelos propietarios.

Estos modelos se integran, además, con las herramientas abiertas de NVIDIA NeMo para el ciclo de vida de agentes de IA —Data Designer, Customizer, Guardrails y NeMo Agent Toolkit—, de forma que las organizaciones pueden:

  • Curar y preparar sus datos
  • Afinar el modelo para casos de uso concretos
  • Aplicar políticas de seguridad y filtrado (guardrails)
  • Orquestar agentes complejos sobre la base de Mistral 3

Para facilitar el despliegue, NVIDIA ha optimizado marcos de inferencia como TensorRT-LLM, vLLM y SGLang para toda la familia Mistral 3, y anuncia que los modelos estarán disponibles como microservicios NVIDIA NIM, descargables en cualquier infraestructura acelerada por GPU.


Qué significa esto para empresas y desarrolladores

La combinación de modelo gigante tipo MoE en el data center y modelos compactos Ministral 3 en el edge refuerza la idea de “inteligencia distribuida” que Mistral AI ha puesto sobre la mesa. Las organizaciones pueden imaginar arquitecturas en las que:

  • Los agentes complejos de alto razonamiento corren en clusters GB200 NVL72, gestionando cargas pesadas de análisis, planificación o generación multimodal.
  • Los clientes, sucursales, fábricas o vehículos ejecutan versiones Ministral 3 en PCs RTX o plataformas Jetson, manteniendo parte de la lógica en local y reduciendo la dependencia de la nube.

Al tratarse de modelos abiertos y licenciados de forma permisiva, la alianza también supone un paso más en la democratización de tecnologías de IA de nivel “frontier” en Europa y a escala global, en un momento en el que la discusión sobre soberanía digital, costes energéticos y dependencia de proveedores cerrados está cada vez más presente.


Preguntas frecuentes sobre Mistral 3 y la alianza con NVIDIA

¿Qué es exactamente la familia de modelos Mistral 3?
Mistral 3 es una nueva generación de modelos de inteligencia artificial abiertos y multilingües que combina un gran modelo mixture-of-experts (Mistral Large 3, con 675.000 millones de parámetros) y una suite de modelos densos más pequeños llamada Ministral 3 (3B, 8B y 14B). Todos están optimizados para funcionar sobre la plataforma de hardware de NVIDIA, desde GB200 NVL72 en centros de datos hasta GPUs RTX y Jetson en el edge.

¿En qué se diferencia Mistral Large 3 de otros grandes modelos de lenguaje?
La principal diferencia es su arquitectura MoE y su grado de optimización para Blackwell. Al activar solo un subconjunto de expertos en cada token, el modelo reduce el coste de cómputo manteniendo un alto nivel de precisión, y en GB200 NVL72 puede alcanzar hasta 10 veces más rendimiento que en la generación anterior H200. Además, su ventana de contexto de 256.000 tokens le permite trabajar con documentos y sesiones de gran tamaño sin fragmentar la conversación.

¿Qué hardware se necesita para ejecutar Ministral 3 en local?
Los modelos Ministral 3 están pensados para ejecutarse en GPUs de consumo y edge de NVIDIA, como las tarjetas GeForce RTX en PCs y portátiles, las estaciones DGX Spark o las placas Jetson en entornos embebidos. Gracias a la integración con Llama.cpp y Ollama, es posible desplegarlos en equipos de sobremesa modernos sin necesidad de infraestructura de centro de datos, siempre que se cuente con memoria de vídeo suficiente para el tamaño de modelo elegido.

¿Pueden las empresas afinar y desplegar estos modelos en sus propios centros de datos?
Sí. La familia Mistral 3 se publica con licencia Apache 2.0 y pesos abiertos, lo que permite a las organizaciones descargar los modelos, afinarlos con sus propios datos y desplegarlos en clusters de GPUs NVIDIA —incluyendo H100, H200, GB200 u otras— utilizando frameworks como TensorRT-LLM, vLLM o SGLang. Además, NVIDIA pondrá a disposición microservicios NIM para simplificar el despliegue en entornos híbridos y multi-nube.

vía: blogs.nvidia

encuentra artículos

newsletter

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

LO ÚLTIMO

×