12 octubre 2024
Noticias
2 minutos de lectura

Gradient AI logra extender el contexto de Llama 3 a más de 1 millón de tokens

Nota de Prensa

Gradient AI, una empresa especializada en inteligencia artificial, ha logrado un avance significativo en el campo del procesamiento del lenguaje natural al extender el contexto de los modelos Llama 3 de Meta a más de 1 millón de tokens. Este logro posiciona a estos modelos como los de mayor contexto en el ámbito del código abierto.

Un salto cuántico en la capacidad de procesamiento

Los modelos de lenguaje Llama 3, lanzados recientemente por Meta, han generado gran entusiasmo en la comunidad de código abierto debido a su rendimiento excepcional. Sin embargo, una limitación notable era su relativamente pequeña longitud de contexto. Gradient AI vio en esto una oportunidad para mejorar estos modelos.

La longitud de contexto determina cuánto texto puede considerar un modelo tanto en la entrada como en la salida de una sola vez. Mientras que los modelos más avanzados ofrecen ventanas de contexto de hasta 128,000 tokens (aproximadamente 90,000 palabras), Gradient AI ha logrado aumentar esta capacidad a más de 1 millón de tokens para los modelos Llama 3 de 8B y 70B parámetros.

Infraestructura y tecnología detrás del logro

Para llevar a cabo este proyecto, Gradient AI se asoció con Crusoe, un proveedor de infraestructura de cómputo. La elección del hardware fue crucial, optando por las GPU NVIDIA L40S debido a su rápida disponibilidad y su destacado rendimiento en operaciones de punto flotante de 8 bits (FP8).

El equipo de Gradient AI implementó técnicas avanzadas de optimización, como RingAttention, para superar las limitaciones de memoria y permitir longitudes de contexto efectivamente infinitas. Además, desarrollaron estrategias propietarias para equilibrar la carga de cómputo y mejorar el rendimiento general del entrenamiento.

Impacto y eficiencia

Los modelos resultantes han demostrado resultados sobresalientes en pruebas de recuperación de información y se posicionan entre los mejores en el Open LLM Leaderboard. Además, el costo estimado de entrenamiento para estos modelos extendidos resulta competitivo en comparación con las opciones de ajuste fino disponibles a través de APIs comerciales.

Consideraciones ambientales

En un momento en que la demanda de modelos de IA más potentes está aumentando exponencialmente, Gradient AI y Crusoe han abordado también el aspecto de la sostenibilidad. Crusoe alimenta sus centros de datos con una combinación de energía desperdiciada, varada y limpia, lo que permite ejecutar cargas de trabajo de IA a gran escala mientras se alinea con los objetivos climáticos.

Este avance en la extensión del contexto de los modelos Llama 3 representa un paso significativo hacia modelos de lenguaje más capaces y versátiles, con potenciales aplicaciones en una amplia gama de industrias y casos de uso.

fuente: Crusoe