
¿Hasta dónde recuerdan los modelos de lenguaje? Un análisis revela la verdadera capacidad de contexto de los LLM
La carrera por ampliar la ventana de contexto de los modelos de lenguaje ha sido una de las principales batallas técnicas en el desarrollo de la inteligencia artificial generativa. Empresas como OpenAI, Google, Anthropic o Meta compiten por ofrecer modelos capaces de procesar cada vez más texto de forma simultánea. Pero una nueva investigación titulada RULER: What’s the Real Context Size of Your Long-Context Language Models?, desarrollada por investigadores de NVIDIA y colaboradores, cuestiona el rendimiento real de estos modelos cuando se enfrentan a tareas que exigen mantener coherencia y precisión en contextos verdaderamente extensos. ¿Qué es la ventana de contexto? En el ámbito de los modelos de lenguaje (LLM), la ventana de contexto define la cantidad máxima de tokens