Snowflake, la compañía de nube de datos impulsada por IA, ha anunciado que integrará la colección Llama 3.1 de modelos de lenguaje multilingües de código abierto en su plataforma Snowflake Cortex AI. Esta incorporación permitirá a las empresas crear y aprovechar aplicaciones de IA poderosas a gran escala de manera más sencilla. El lanzamiento incluye el modelo de lenguaje de código abierto más grande y avanzado de Meta, el Llama 3.1 405B. Snowflake ha desarrollado y abierto un conjunto de herramientas de inferencia para facilitar un rendimiento en tiempo real y democratizar el uso de aplicaciones avanzadas de procesamiento y generación de lenguaje natural. La optimización de Snowflake para Llama 3.1 405B permite una ventana de contexto de 128K desde el primer día, con una latencia hasta tres veces menor y un rendimiento 1.4 veces superior al de las soluciones de código abierto actuales. Además, el ajuste del modelo se puede realizar de manera masiva con un solo nodo de GPU, simplificando y reduciendo costos para desarrolladores y usuarios dentro de Cortex AI.
A través de su asociación con Meta, Snowflake ofrece a los clientes una forma eficiente y segura de acceder, ajustar y desplegar los modelos más recientes de Meta en su plataforma de nube de datos de IA, con un enfoque en confianza y seguridad desde el principio.
“Estamos facilitando a las empresas y a la comunidad de código abierto el uso de modelos de vanguardia como Llama 3.1 405B para inferencia y ajuste, maximizando la eficiencia”, afirma Vivek Raghunathan, vicepresidente de ingeniería de IA en Snowflake. “No solo estamos proporcionando acceso directo a los modelos de Meta a través de Snowflake Cortex AI, sino que también ofrecemos nueva investigación y código abierto que soporta ventanas de contexto de 128K, inferencia multinodo, paralelismo de canalización, cuantización de punto flotante de 8 bits, y más para avanzar en el ecosistema de IA”.
El equipo de investigación de IA de Snowflake sigue ampliando las innovaciones de código abierto mediante contribuciones a la comunidad de IA y manteniendo transparencia sobre sus tecnologías LLM. Junto con el lanzamiento de Llama 3.1 405B, están presentando su conjunto de soluciones de inferencia LLM masiva y optimización del sistema de ajuste fino en colaboración con DeepSpeed, Hugging Face, vLLM y la comunidad de IA en general. Esto representa un avance significativo en la inferencia y ajuste de modelos con miles de millones de parámetros.
Los grandes modelos y los requisitos de memoria presentan desafíos significativos para obtener una inferencia de baja latencia en aplicaciones en tiempo real, alto rendimiento para la rentabilidad, y soporte para contextos prolongados en IA generativa empresarial. La pila de optimización del sistema de inferencia LLM masiva y ajuste fino de Snowflake aborda estos problemas utilizando técnicas avanzadas de paralelismo y optimización de memoria, permitiendo un procesamiento eficiente sin necesidad de infraestructura costosa. En el caso de Llama 3.1 405B, la plataforma de Snowflake ofrece un alto rendimiento en tiempo real en un solo nodo de GPU y admite una ventana de contexto de 128,000 en configuraciones multinodo. Esta flexibilidad se aplica tanto a hardware moderno como antiguo, haciendo que sea accesible a una gama más amplia de empresas. Además, los científicos de datos pueden ajustar Llama 3.1 405B usando técnicas de precisión mixta en menos GPU, eliminando la necesidad de grandes clusters de GPU. Como resultado, las organizaciones pueden adaptar e implementar aplicaciones de IA generativa de nivel empresarial de manera sencilla, eficiente y segura.
Snowflake también ha desarrollado una infraestructura optimizada para el ajuste fino que incluye técnicas como la destilación de modelos, barreras de seguridad, generación aumentada de recuperación (RAG) y generación de datos sintéticos, facilitando el inicio en estos casos de uso dentro de Cortex AI.
La seguridad de la IA es crucial para Snowflake y sus clientes. Por eso, Snowflake ha lanzado Snowflake Cortex Guard para proteger contra contenido dañino en cualquier aplicación LLM o activo creado en Cortex AI, ya sea utilizando modelos de Meta o LLMs de otros proveedores importantes como AI21 Labs, Google, Mistral AI, Reka, y el propio Snowflake. Cortex Guard usa Llama Guard 2 de Meta para garantizar que los modelos utilizados sean seguros.
Comentarios de clientes y socios de Snowflake sobre esta noticia incluyen:
- Dave Lindley, Sr. Director de Productos de Datos en E15 Group: “Confiamos en la IA generativa para analizar y comprender mejor nuestra plataforma de Voz del Cliente. Acceder a los modelos Llama de Meta dentro de Snowflake Cortex AI nos ayuda a obtener las perspectivas necesarias para mejorar nuestro negocio.”
- Ryan Klapper, líder de IA en Hakkoda: “La seguridad y confianza en la IA generativa son esenciales. Snowflake nos brinda las garantías necesarias para utilizar modelos de lenguaje avanzados de manera segura, lo que nos permite mejorar nuestras aplicaciones internas.”
- Matthew Scullion, CEO y cofundador de Matillion: “Integrar los modelos Llama de Meta en Snowflake Cortex AI ofrece a nuestros clientes acceso a los modelos de lenguaje más avanzados y flexibilidad para adaptarse a sus necesidades de IA.”
- Kevin Niparko, VP de Estrategia de Producto y Tecnología en Twilio Segment: “La capacidad de elegir el modelo adecuado en Snowflake Cortex AI permite a nuestros clientes generar perspectivas inteligentes basadas en IA y aplicarlas en sus herramientas, ayudando a lograr resultados óptimos.”