Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

Qwen2.5-Max: Un modelo de inteligencia artificial a gran escala que marca un antes y un después

El equipo de Qwen ha presentado su última creación, el modelo Qwen2.5-Max, un sistema de inteligencia artificial basado en la arquitectura Mixture of Experts (MoE). Este modelo, que ha sido entrenado con más de 20 billones de tokens, busca establecer nuevos estándares en el campo de la inteligencia artificial (IA) a gran escala. Con su lanzamiento, Qwen2.5-Max se posiciona como una alternativa competitiva frente a otros modelos líderes en el mercado, como GPT-4o, DeepSeek V3 y Claude-3.5-Sonnet.

Un salto cualitativo en el entrenamiento de modelos

La clave del éxito de Qwen2.5-Max radica en su enfoque innovador en el escalado de datos y modelos. Según el equipo detrás de este desarrollo, aumentar tanto el tamaño de los datos como el del modelo permite alcanzar mejoras significativas en la inteligencia de la IA. Sin embargo, escalar modelos extremadamente grandes, ya sean densos o basados en MoE, es un desafío que requiere un conocimiento profundo y un control preciso de los detalles.

Este proceso ha sido posible gracias a las últimas revelaciones en torno a las técnicas utilizadas en el desarrollo de DeepSeek V3, un modelo que ha sentado las bases para el avance de Qwen2.5-Max. Además, el modelo ha sido sometido a un entrenamiento adicional mediante métodos de Fine-Tuning Supervisado (SFT) y Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF), lo que ha permitido optimizar sus capacidades.

Rendimiento en benchmarks

El rendimiento de Qwen2.5-Max ha sido evaluado en una serie de pruebas de referencia que miden la capacidad de los modelos en áreas como la resolución de problemas a nivel universitario, habilidades de codificación, capacidades generales y preferencias humanas. Entre las pruebas destacadas se encuentran MMLU-Pro, LiveCodeBench, LiveBench y Arena-Hard.

En comparación con DeepSeek V3, Qwen2.5-Max ha demostrado un rendimiento superior en pruebas como Arena-Hard, LiveBench, LiveCodeBench y GPQA-Diamond. Asimismo, ha mostrado resultados competitivos en otras evaluaciones, incluyendo MMLU-Pro, lo que lo posiciona como un modelo de vanguardia en el campo de la IA.

Disponibilidad y uso

Qwen2.5-Max ya está disponible en Qwen Chat, una plataforma que permite a los usuarios interactuar directamente con el modelo, realizar búsquedas y explorar sus funcionalidades. Además, su API, compatible con las APIs de OpenAI, está accesible a través de Alibaba Cloud. Para utilizarla, los usuarios deben registrarse en Alibaba Cloud, activar el servicio Alibaba Cloud Model Studio y generar una clave API.

El equipo ha compartido un ejemplo de código en Python que muestra cómo utilizar Qwen2.5-Max para resolver consultas simples, como determinar qué número es mayor entre 9,11 y 9,8. Esta facilidad de uso abre un abanico de posibilidades para desarrolladores y empresas que buscan integrar IA avanzada en sus aplicaciones.

vía: Noticias Redes Sociales

encuentra artículos

newsletter

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

LO ÚLTIMO