La carrera por desplegar inteligencia artificial generativa en entornos empresariales entra en una nueva fase. Ya no basta con poner en marcha copilotos, asistentes o flujos automatizados: ahora toca demostrar que esos sistemas son fiables, que se comportan como se espera y que sus respuestas pueden auditarse. En ese contexto, Gartner prevé que la importancia creciente de la inteligencia artificial explicable, conocida como XAI por sus siglas en inglés, llevará a que las inversiones en observabilidad de grandes modelos de lenguaje alcancen el 50 % de los despliegues de GenAI en 2028, frente al 15 % actual.
La previsión refleja un cambio profundo en la forma en que las empresas están entendiendo la IA. Durante la primera ola de adopción, el interés se centró en probar capacidades, lanzar pilotos y medir mejoras de productividad. Pero a medida que estos sistemas empiezan a asumir tareas más sensibles, el foco se desplaza hacia la confianza: por qué un modelo responde de una determinada manera, con qué datos se apoya, qué sesgos arrastra, cómo evoluciona su comportamiento y hasta qué punto puede seguir usándose con seguridad en producción.
Gartner define la IA explicable como un conjunto de capacidades que permite describir un modelo, mostrar sus puntos fuertes y débiles, anticipar su comportamiento e identificar sesgos potenciales. La observabilidad de LLM, por su parte, no se limita a medir tiempos de respuesta o consumo de recursos, sino que incorpora métricas propias de estos sistemas, como alucinaciones, deriva, uso de tokens, sesgos o calidad factual de las respuestas.
De la experimentación al control real en producción
La advertencia de la consultora apunta a un problema cada vez más visible en las empresas: la IA está llegando a entornos de negocio más deprisa de lo que avanzan los mecanismos de supervisión. Cuando un modelo se usa para resumir informes internos, asistir a empleados o automatizar tareas de bajo impacto, los errores pueden ser asumibles. Pero si entra en procesos críticos, atención al cliente, análisis documental, asesoramiento interno o generación de contenido sensible, la falta de trazabilidad deja de ser un detalle técnico para convertirse en un riesgo operativo, reputacional y regulatorio.
Por eso, Gartner sostiene que sin una base sólida de XAI y observabilidad, muchas iniciativas de GenAI quedarán relegadas a tareas de bajo riesgo, internas o fácilmente verificables, lo que limitaría de forma notable el retorno real de la inversión. La previsión tiene además un trasfondo económico: la firma anticipa que el mercado global de modelos de GenAI superará los 25.000 millones de dólares en 2026 y alcanzará los 75.000 millones en 2029. Si el gasto en modelos y aplicaciones sigue creciendo a ese ritmo, también lo hará la presión para controlar cómo funcionan.
Ese movimiento ya empieza a verse en el mercado. Gartner ha creado incluso una categoría específica para plataformas de evaluación y observabilidad de IA, las AEOP, herramientas orientadas a gestionar la naturaleza no determinista de estos sistemas y a convertir métricas, trazas y evaluaciones en un circuito continuo de mejora. Es una señal de madurez: la conversación empresarial empieza a pasar del “qué modelo usar” al “cómo monitorizarlo, evaluarlo y gobernarlo”.
La regulación también empuja
La necesidad de explicar y vigilar la IA no nace solo de una preocupación técnica. También responde al nuevo marco regulatorio y de gobernanza que se está consolidando, especialmente en Europa. La Comisión Europea recuerda en su página oficial sobre la AI Act que la nueva normativa introduce obligaciones de transparencia para determinados sistemas y modelos, y que una parte relevante de esas reglas será aplicable a partir de agosto de 2026. Antes de eso, desde agosto de 2025, ya son aplicables las obligaciones para modelos de propósito general.
Esa evolución regulatoria refuerza la tesis de Gartner: la IA empresarial necesita algo más que rendimiento o eficiencia. Necesita ser defendible. En la práctica, eso significa que las organizaciones tendrán que justificar por qué un sistema ha generado una respuesta, qué controles ha superado, qué límites se le han impuesto y cómo se ha validado que sigue comportándose de forma adecuada con el paso del tiempo.
No se trata solo de satisfacer a reguladores o auditores. También es una cuestión de gestión interna. Equipos legales, responsables de cumplimiento, operaciones, SRE y departamentos de seguridad tendrán que hablar un lenguaje común con los equipos de datos e IA. Y eso exige herramientas, procesos y métricas nuevas.
Un cambio de prioridades en la empresa
Lo interesante de la previsión de Gartner es que desplaza el debate desde la velocidad hacia la calidad de la respuesta. La consultora subraya que la observabilidad tradicional se había centrado sobre todo en velocidad y coste, pero que ahora la prioridad empieza a desplazarse hacia la exactitud factual, la corrección lógica o incluso la tendencia de algunos modelos a dar respuestas complacientes o sesgadas. En otras palabras, la IA ya no se evalúa solo por lo rápido que responde, sino por si se puede confiar en lo que dice.
Ese enfoque enlaza también con el trabajo del NIST en Estados Unidos. El instituto estadounidense explica en su marco de gestión de riesgos para IA que uno de los objetivos centrales es mejorar la capacidad de incorporar criterios de confianza en el diseño, desarrollo, uso y evaluación de sistemas de IA. En 2024, además, publicó un perfil específico para IA generativa con el fin de ayudar a las organizaciones a identificar los riesgos particulares de este tipo de tecnologías y proponer acciones de mitigación.
Todo ello apunta a la misma conclusión: la segunda etapa de la IA empresarial no va a depender solo de modelos más potentes, sino de mecanismos más robustos para entenderlos y vigilarlos. La previsión de Gartner no garantiza que todas las empresas lleguen a ese nivel en 2028, pero sí indica hacia dónde se está moviendo el mercado. Y ese movimiento resulta coherente con lo que ya se observa en regulación, seguridad, gobernanza y operaciones.
Preguntas frecuentes
¿Qué significa observabilidad de LLM en una empresa?
Es la capacidad de monitorizar y analizar cómo se comporta un modelo de lenguaje en producción, no solo en rendimiento técnico, sino también en aspectos como alucinaciones, sesgos, uso de tokens, deriva o calidad de las respuestas.
¿Qué es la IA explicable o XAI y por qué importa?
La IA explicable agrupa técnicas y capacidades que ayudan a entender por qué un modelo responde de una determinada forma, cuáles son sus límites y qué riesgos presenta. Es clave para auditoría, cumplimiento, seguridad y toma de decisiones de negocio.
¿Por qué Gartner cree que crecerá tanto este tipo de inversión?
Porque las empresas están pasando de probar GenAI en entornos controlados a desplegarla en procesos reales, donde ya no basta con que el sistema funcione: también debe ser trazable, gobernable y defendible ante riesgos, errores o exigencias regulatorias.
¿Qué relación tiene esto con la AI Act europea?
La AI Act introduce obligaciones de transparencia y gobernanza para determinados sistemas y modelos de IA. Eso empuja a muchas organizaciones a reforzar herramientas de supervisión, explicación y control continuo sobre sus despliegues de IA.
vía: gartner