La IA agéntica ya tiene su gran barrera: el precio de los tokens

Antonio

La Inteligencia Artificial prometió abundancia, productividad y acceso masivo a capacidades antes reservadas a grandes laboratorios. Durante un tiempo, esa narrativa pareció funcionar: herramientas de escritura, asistentes de programación, copilotos empresariales y primeros agentes autónomos llegaron al mercado con precios asumibles, pruebas gratuitas o suscripciones que se parecían mucho al software SaaS tradicional.

Esa fase está terminando. La IA generativa no se comporta como una aplicación convencional. Cada pregunta, cada documento leído, cada razonamiento intermedio, cada respuesta larga y cada acción ejecutada por un agente consume tokens. Y cuando esos agentes dejan de ser demostraciones para convertirse en flujos de trabajo permanentes, la factura cambia de escala.

El problema no es solo que los modelos sean caros. El problema es que la IA agéntica consume de otra manera. Un asistente responde a una consulta. Un agente planifica, lee, escribe, comprueba, vuelve a intentarlo, llama a herramientas externas y puede trabajar durante minutos u horas sobre una tarea. En cada paso se acumulan tokens de entrada, salida, contexto, caché y, en algunos casos, razonamiento interno. La economía ya no se mide por usuario, sino por volumen real de inferencia.

El fin de la tarifa plana cómoda

La señal más clara de este cambio llega desde las propias plataformas. GitHub anunció que todos los planes de Copilot pasarán el 1 de junio de 2026 a un sistema de facturación basado en uso mediante GitHub AI Credits. La compañía mantendrá planes de suscripción, pero el consumo se calculará con tokens de entrada, salida y caché, según el modelo utilizado. Es un movimiento relevante porque Copilot ya no es solo una ayuda dentro del editor, sino una plataforma con flujos cada vez más agénticos y sesiones largas sobre repositorios completos.

Microsoft también ha dado una pista de hacia dónde va el mercado. The Verge informó de que la compañía planea retirar la mayoría de licencias internas de Claude Code en parte de sus equipos y mover a muchos desarrolladores hacia GitHub Copilot CLI. La lectura no debe simplificarse como un rechazo a Anthropic. Microsoft sigue integrando modelos de terceros en sus productos. Pero sí muestra que incluso una de las mayores tecnológicas del mundo está racionalizando el acceso interno a herramientas de IA cuando el consumo empieza a pesar.

Uber es otro aviso. Forbes publicó que la compañía habría agotado su presupuesto de IA para 2026 en solo cuatro meses por el uso intensivo de Claude Code. Aunque este tipo de datos dependen de fuentes internas y deben leerse con prudencia, encajan con lo que ya ven muchas empresas: los presupuestos calculados para pilotos no sirven cuando los equipos adoptan IA a diario y los agentes empiezan a trabajar sobre tareas reales.

La paradoja es clara. Cuanto más útil se vuelve la IA, más se usa. Y cuanto más se usa, más difícil resulta sostener la idea de una tarifa plana ilimitada. La abundancia no desaparece, pero empieza a tener condiciones.

Tabla comparativa: precios por 1 millón de tokens

Los precios siguientes son orientativos y pueden variar según la fecha en la que se lea este artículo, la región, el modo de ejecución, el tamaño de contexto, el uso de caché, batch processing, prioridad, descuentos enterprise o cambios comerciales del proveedor. No todos los modelos son equivalentes en calidad, velocidad, cumplimiento, soporte o disponibilidad.

Región	Empresa	Modelo de referencia	Entrada por 1M tokens	Salida por 1M tokens	Lectura para uso agéntico
EE. UU.	OpenAI	GPT-5.5	5,00 $	30,00 $	Muy caro en tareas con mucha generación de texto
EE. UU.	Anthropic	Claude Opus 4.7	5,00 $	25,00 $	Alto coste de salida, aunque con ahorro por caché o batch
EE. UU.	Google	Gemini 3.5 Flash High	1,50 $	9,00 $	Más competitivo, pero el modo de razonamiento eleva el gasto
EE. UU.	xAI	Grok 4	1,25 $	2,50 $	Precio agresivo frente a otros modelos estadounidenses
China	DeepSeek	DeepSeek V4 Pro	0,435 $	0,87 $	Muy bajo coste para flujos masivos y agentes
China	Alibaba/Qwen	Qwen-Max	2,50 $	7,50 $	Coste intermedio, con ecosistema cloud propio
China	Z.ai/Zhipu	GLM-5.1	1,40 $	4,40 $	Alternativa competitiva para razonamiento y código
China	Baidu	ERNIE 4.5	≈0,59 $	≈2,35 $	Precios aproximados convertidos desde yuanes
China	MiniMax	MiniMax M2.7	0,30 $	1,20 $	Muy atractivo para arquitecturas multiagente de alto volumen

La diferencia entre modelos estadounidenses y chinos no es menor. En flujos donde un agente genera mucho texto, revisa código, produce documentación o ejecuta varias rondas de razonamiento, el coste de salida pesa mucho más que el de entrada. Ahí es donde la distancia entre 25 o 30 dólares por millón de tokens y menos de 2 dólares por millón puede cambiar por completo la viabilidad económica de un proyecto.

Pero el precio no lo es todo. Elegir un modelo chino barato puede plantear preguntas de latencia, residencia del dato, cumplimiento normativo, soporte enterprise, integración, controles de seguridad y dependencia geopolítica. Para una startup o un laboratorio técnico, el coste puede ser el factor dominante. Para una empresa regulada, no siempre.

La nueva desigualdad de la IA será económica

La conversación sobre IA suele centrarse en capacidades: qué modelo razona mejor, cuál programa mejor, cuál resuelve más benchmarks o cuál tiene más contexto. Pero la adopción real en empresas va a depender cada vez más de una pregunta menos brillante: cuánto cuesta usarlo todos los días.

Un caso extremo ayuda a entenderlo. Tom’s Hardware publicó que Peter Steinberger, creador de OpenClaw y empleado de OpenAI, llegó a consumir más de 1,3 millones de dólares en tokens de OpenAI durante 30 días, con 603.000 millones de tokens y 7,6 millones de peticiones generadas por unas 100 instancias de Codex. No es un ejemplo representativo de una empresa media, pero sí muestra qué ocurre cuando se eliminan los límites y los agentes trabajan de forma continua.

Salesforce apunta en la misma dirección desde otro ángulo. Marc Benioff afirmó que la compañía podría gastar unos 300 millones de dólares en tokens de Anthropic este año, principalmente por el uso de agentes de programación y automatización. Esa cifra no significa que la inversión sea irracional. Puede estar justificada si el retorno en productividad es mayor. Pero confirma que la IA agéntica ya no es una partida menor de software: entra en el terreno de la infraestructura estratégica.

Para grandes tecnológicas, bancos, farmacéuticas o consultoras globales, estos costes pueden asumirse si el retorno está claro. Para universidades, medios pequeños, desarrolladores independientes, pymes o equipos de investigación sin grandes presupuestos, el escenario es distinto. Si el acceso a modelos avanzados y agentes persistentes queda condicionado por facturas mensuales de cinco o seis cifras, la IA no reducirá todas las diferencias. Algunas las ampliará.

La promesa de abundancia tecnológica se enfrenta así a una realidad física: GPUs, centros de datos, energía, memoria, redes y talento especializado. La inteligencia puede parecer software, pero se ejecuta sobre una infraestructura muy cara.

La respuesta no será usar siempre el modelo más barato

La salida no pasa solo por sustituir un modelo estadounidense por uno chino más económico. La próxima fase de la IA empresarial exigirá arquitectura. Las organizaciones tendrán que decidir qué tareas merecen modelos de frontera, cuáles pueden resolverse con modelos más pequeños, qué partes pueden ejecutarse en local, cuándo usar caché, cómo limitar agentes persistentes y cómo medir el coste por resultado de negocio.

Esto abre la puerta a una disciplina que cada vez será más importante: FinOps para IA. Igual que el cloud obligó a controlar máquinas, almacenamiento y tráfico, la IA obliga a controlar tokens, contexto, caché, llamadas a herramientas y consumo por equipo. Sin esa visibilidad, la adopción puede parecer exitosa hasta que llega la factura.

La Inteligencia Artificial no ha fracasado porque empiece a ser cara. Más bien está entrando en una fase adulta. Los subsidios iniciales, las pruebas generosas y las tarifas planas han servido para crear hábito y acelerar el mercado. Ahora llega la parte menos cómoda: demostrar qué tareas generan valor suficiente para pagar el coste real de ejecutarlas.

La era de los agentes no se decidirá solo por quién tenga el modelo más inteligente. También por quién pueda permitirse mantenerlo pensando.

Preguntas frecuentes

¿Por qué los agentes de IA son más caros que un chatbot?
Porque trabajan en varios pasos: leen contexto, generan planes, consultan herramientas, ejecutan acciones, revisan resultados y vuelven a intentarlo. Cada paso consume tokens.

¿Los precios por token pueden cambiar?
Sí. Pueden variar según la fecha, el país, el proveedor, el modelo, el contexto, el uso de caché, batch processing, prioridad o acuerdos enterprise.

¿Los modelos chinos son siempre la mejor opción por precio?
No necesariamente. Su coste puede ser mucho menor, pero hay que evaluar privacidad, cumplimiento, soporte, latencia, disponibilidad, calidad y requisitos de datos.

¿Qué deberían hacer las empresas para controlar el gasto en IA?
Medir consumo por caso de uso, aplicar límites, usar modelos distintos según la tarea, cachear respuestas, evitar agentes sin control y calcular coste por resultado, no solo coste por token.