Nvidia Revoluciona la IA con Nuevos Modelos de Código Abierto

Nvidia ha presentado Nemotron-4 340B, una familia de modelos de lenguaje de código abierto diseñada para generar datos sintéticos de alta calidad y desarrollar potentes aplicaciones de inteligencia artificial en diversas industrias.

La familia Nemotron-4 340B incluye tres modelos clave: Base, Instruct y Reward, que forman una cadena para crear datos sintéticos utilizados en el entrenamiento de nuevos modelos de lenguaje a gran escala (LLM). El modelo Instruct genera datos sintéticos de alta calidad y fue entrenado con un 98% de datos sintéticos, mientras que el modelo Reward filtra estos datos para seleccionar los ejemplos de mayor calidad.

Los modelos Nemotron-4 han demostrado ser competitivos e incluso superiores a otros modelos de código abierto como Llama-3, Mixtral y Qwen-2 en diversas pruebas de referencia. Además, Nvidia ha lanzado Mamba-2 Hybrid, un modelo de espacio de estado selectivo (SSM) que ha superado a los modelos LLM basados en transformadores en precisión.

Nvidia no solo ha proporcionado una familia de modelos de código abierto que iguala las capacidades de sus principales competidores, sino que también sobresale en la creación de datos sintéticos necesarios para seguir avanzando en el desarrollo de nuevos LLM. El gigante de la fabricación de chips continúa consolidándose como una potencia en el campo de la inteligencia artificial.

Lanzamiento de la Familia Nemotron-4 340B

Nvidia ha anunciado que los modelos Nemotron-4 340B están optimizados para trabajar con Nvidia NeMo, un marco de código abierto para el entrenamiento de modelos de extremo a extremo, y con la biblioteca de código abierto Nvidia TensorRT-LLM para inferencia.

Los desarrolladores pueden descargar Nemotron-4 340B desde Hugging Face y pronto estarán disponibles en ai.nvidia.com, donde se empaquetarán como un microservicio NIM de Nvidia con una interfaz de programación de aplicaciones estándar que puede desplegarse en cualquier lugar.

Generación de Datos Sintéticos con Nemotron

Los modelos LLM pueden ayudar a los desarrolladores a generar datos de entrenamiento sintéticos en escenarios donde el acceso a conjuntos de datos etiquetados grandes y diversos es limitado. El modelo Instruct de Nemotron-4 340B crea datos sintéticos diversos que imitan las características de los datos del mundo real, mejorando la calidad de los datos para aumentar el rendimiento y la robustez de los LLM personalizados en varios dominios.

Synthetic Data Generation Pipeline scaled 1

Para mejorar aún más la calidad de los datos generados por IA, los desarrolladores pueden usar el modelo Reward de Nemotron-4 340B para filtrar las respuestas de alta calidad. Este modelo evalúa las respuestas en cinco atributos: utilidad, corrección, coherencia, complejidad y verbosidad. Actualmente, ocupa el primer lugar en la tabla de clasificación RewardBench de Hugging Face, creada por AI2.

Optimización y Ajuste con NeMo y TensorRT-LLM

Utilizando las herramientas de código abierto Nvidia NeMo y Nvidia TensorRT-LLM, los desarrolladores pueden optimizar la eficiencia de sus modelos Instruct y Reward para generar datos sintéticos y evaluar respuestas.

Todos los modelos Nemotron-4 340B están optimizados con TensorRT-LLM para aprovechar el paralelismo tensorial, un tipo de paralelismo de modelos en el que las matrices de pesos individuales se dividen entre múltiples GPU y servidores, permitiendo una inferencia eficiente a escala.

Evaluación de Seguridad y Comienzo

El modelo Instruct de Nemotron-4 340B ha pasado por una evaluación de seguridad exhaustiva, incluyendo pruebas adversariales, y ha tenido un buen desempeño en una amplia gama de indicadores de riesgo. No obstante, se recomienda a los usuarios que realicen una evaluación cuidadosa de las salidas del modelo para garantizar que los datos generados sintéticamente sean adecuados, seguros y precisos para su caso de uso.

Los desarrolladores pueden descargar los modelos Nemotron-4 340B a través de Hugging Face y acceder a más detalles en los documentos de investigación sobre el modelo y el conjunto de datos. Esta innovación de Nvidia promete transformar la generación de datos sintéticos y el desarrollo de aplicaciones de IA en múltiples sectores.

×