La inferencia de la IA caerá más del 90 %, pero la factura total no bajará tanto

Antonio

La economía de la Inteligencia Artificial generativa va a cambiar de forma radical durante esta década. Según una nueva previsión de Gartner, en 2030 ejecutar inferencia sobre un gran modelo de lenguaje de 1 billón de parámetros costará a los proveedores de IA más de un 90 % menos que en 2025. La firma añade además que los LLM de 2030 podrían ser hasta 100 veces más eficientes en costes que los primeros modelos de tamaño comparable desarrollados en 2022. Es un dato llamativo, pero también engañosamente optimista si se interpreta sin contexto.

Porque la noticia no es solo que la inferencia se abaratará. La parte realmente importante es otra: el coste por token caerá, pero el consumo total de tokens crecerá todavía más rápido. Y eso significa que las empresas tecnológicas, los proveedores de IA y los equipos de producto no podrán confiar en que el simple abaratamiento del hardware o de los modelos resuelva por sí solo la ecuación económica de la IA avanzada. En especial, cuando los sistemas agénticos y los flujos de razonamiento complejos empiecen a generalizarse en producción.

El token barato no arregla una mala arquitectura

Gartner atribuye esta futura bajada de costes a una combinación de factores bastante previsibles para cualquier observador del mercado: mejoras en semiconductores, mayor eficiencia de la infraestructura, innovación en el diseño de modelos, mejor utilización de chips, más uso de silicio especializado en inferencia y una mayor presencia de dispositivos edge para ciertos casos de uso. Dicho de forma sencilla: habrá chips mejores, modelos mejor optimizados y plataformas más eficaces a la hora de exprimir el hardware disponible.

La consultora divide incluso sus escenarios entre dos familias. Por un lado, los escenarios frontier, basados en chips punteros. Por otro, los escenarios legacy blend, construidos sobre una mezcla representativa de semiconductores disponibles. En estos últimos, los costes modelizados siguen siendo notablemente más altos que en los escenarios de vanguardia, precisamente porque la potencia computacional es inferior. La conclusión técnica es evidente: la caída de costes no será homogénea para todo el mercado. No todas las empresas accederán al mismo nivel de eficiencia, ni todas desplegarán sobre la misma clase de hardware.

Eso tiene una lectura clara para un medio tecnológico: el futuro de la inferencia no dependerá solo de que los modelos sean más baratos de ejecutar, sino de quién controla la mejor infraestructura, quién accede antes al hardware especializado y quién diseña productos capaces de usar de forma inteligente varios niveles de modelos. La guerra no será únicamente de coste unitario, sino de orquestación.

Los agentes consumirán muchos más tokens que un chatbot

Aquí llega el matiz más importante de toda la previsión. Gartner advierte de que los costes unitarios más bajos no se trasladarán por completo a los clientes empresariales. Y además insiste en que la “inteligencia de frontera” exigirá muchos más tokens que las aplicaciones actuales. Según la firma, los modelos agénticos pueden requerir entre 5 y 30 veces más tokens por tarea que un chatbot generativo estándar.

Esa diferencia no es menor. Un chatbot típico recibe una consulta, procesa un contexto limitado y responde. Un agente, en cambio, puede descomponer el problema, revisar documentos, consultar herramientas, llamar a APIs, generar planes intermedios, corregir rutas, validar resultados y ejecutar varios pasos antes de cerrar una tarea. Todo eso multiplica el número de tokens procesados, tanto de entrada como de salida. Y si además hablamos de modelos con mejores capacidades de razonamiento, la cuenta crece todavía más.

Por eso Gartner lanza una advertencia que merece atención: los responsables de producto no deberían confundir la caída del precio de los “tokens commodity” con una democratización automática del razonamiento avanzado. En otras palabras, que los tokens básicos se abaraten no significa que la IA más sofisticada vaya a convertirse en un recurso trivial o casi gratuito. El cómputo y los sistemas necesarios para soportar razonamiento de alto nivel seguirán siendo escasos y caros en los contextos que realmente importan.

Lo barato será lo básico; lo caro seguirá siendo lo diferencial

La conclusión de fondo apunta hacia una segmentación muy clara del mercado. La IA más simple, repetitiva y de alto volumen tenderá a convertirse en una especie de utilidad barata. Ahí encajarán tareas rutinarias, flujos muy estructurados y asistentes de uso general con baja complejidad. Pero la inferencia cara, apoyada en modelos de frontera, seguirá reservada para escenarios donde el razonamiento avanzado justifique el gasto: automatización de alto valor, software agéntico complejo, ciencia, ingeniería, análisis empresarial crítico o productos premium con fuerte margen.

Gartner lo expresa en términos de plataforma: el valor se concentrará en quienes sepan orquestar cargas de trabajo entre una cartera diversa de modelos. Las tareas rutinarias deberían dirigirse a modelos pequeños o especializados por dominio, que pueden rendir mejor que los grandes modelos genéricos en determinados flujos a una fracción del coste. En cambio, la inferencia cara de modelos de frontera debería quedar muy controlada y reservarse para razonamiento complejo y casos donde realmente marque la diferencia.

Desde una óptica técnica, eso significa que la ventaja competitiva no estará solo en tener acceso al mejor modelo, sino en diseñar una arquitectura capaz de decidir qué modelo usar, cuándo usarlo y cuánto contexto darle. La optimización de prompts, la gestión del contexto, la compresión de memoria, el routing entre modelos y la observabilidad del coste dejarán de ser detalles operativos para convertirse en partes centrales del diseño de producto.

La gran implicación para 2030

La previsión de Gartner no anuncia una IA barata en sentido absoluto. Anuncia una IA mucho más eficiente, pero también un ecosistema donde el uso real será más intensivo, más complejo y más dependiente de una buena ingeniería de sistemas. Eso afecta de lleno a hyperscalers, proveedores de modelos, fabricantes de chips, startups de infraestructura y desarrolladores de aplicaciones agénticas.

Para el sector tecnológico, la lección es bastante nítida: la próxima gran batalla no será únicamente por entrenar el modelo más potente, sino por hacer sostenible económicamente su uso masivo. Y en esa carrera, el hardware importa, pero también importan el software de inferencia, la topología del despliegue, la especialización del modelo y la disciplina arquitectónica. Los tokens serán más baratos, sí. Pero el futuro no premiará al que más gaste, sino al que mejor sepa administrar esa nueva abundancia relativa.

Preguntas frecuentes

¿Qué dice exactamente Gartner sobre el coste de inferencia en 2030?
Gartner prevé que en 2030 ejecutar inferencia sobre un LLM de 1 billón de parámetros costará a los proveedores de IA más de un 90 % menos que en 2025.

¿Por qué bajará tanto ese coste?
Por mejoras en chips, infraestructura, diseño de modelos, utilización del hardware, uso de silicio especializado en inferencia y más procesamiento en edge.

¿Entonces la IA avanzada será mucho más barata para las empresas?
No necesariamente. Gartner advierte de que la bajada del coste por token no se trasladará totalmente al cliente y que los sistemas agénticos consumirán muchos más tokens por tarea.

¿Cuánto más pueden consumir los agentes de IA frente a un chatbot?
Según Gartner, entre 5 y 30 veces más tokens por tarea que un chatbot generativo estándar.

Fuente: La IA será mas barata