Cloudflare presenta AI Index: un nuevo “feed” de la web para agentes y LLMs con control, monetización y publicación en tiempo real

Cloudflare ha anunciado la beta privada de AI Index, un índice web de nueva generación para dominios que promete hacer descubrible el contenido para la IA con control del editor, a la vez que ofrece a los constructores de IA un acceso estructurado, en tiempo real y con compensación justa. La idea es tan simple como ambiciosa: si la web del futuro la consultan agentes y modelos, los sitios deben poder decidir cómo se accede a su contenido, con reglas claras y capacidad de monetización; y los equipos de IA deben poder suscribirse a cambios “de origen” sin malgastar recursos en rastreos indiscriminados.

Con AI Index activado, Cloudflare crea automáticamente un índice optimizado para IA del dominio (propiedad del cliente), expone APIs estándar listas para usarMCP server, LLMs.txt, LLMs-full.txt, Search API, Bulk Data API y un canal pub/sub— y lo integra con AI Crawl Control para ver quién accede, definir permisos, establecer políticas y, si se desea, cobrar por acceso mediante Pay per crawl y nuevas integraciones x402. Sobre los índices individuales, la compañía construirá una capa agregadaOpen Index— que agrupa sitios participantes para búsquedas de mayor alcance sin que cada web pierda control ni la posibilidad de ingresar por participación.


Por qué ahora: de la web “rastreada” a la web “suscrita”

Los chatbots, agentes y experiencias de búsqueda generativa se han convertido en una vía principal de descubrimiento de información. El problema: el flujo actual depende, en gran medida, de rastreos a ciegas, con políticas dispares y escaso control por parte de los creadores. Los editores no tienen una forma eficiente de señalar cambios a los proveedores de IA; y, para los equipos que entrenan o sirven modelos, recrawlear contenido no estructurado cuesta tiempo y dinero, sin visibilidad previa de calidad ni coste.

Cloudflare propone un cambio de modelo: del crawling indiscriminado a un pub/sub permissionado. Los sitios que lo deseen opt-in, exponen un índice estructurado, publican eventos de actualización cuando cambia el contenido y definen reglas y precios. Los constructores de IA, en lugar de “rascar” toda la web, descubren dominios con índice activo, evalúan metadatos (p. ej., unicidad, profundidad, relevancia contextual, popularidad), pagan por acceso cuando corresponde y se suscriben a los cambios para tener datos frescos sin volver a rastrear cada X horas.


Qué incluye AI Index al activarlo en un dominio

Cuando un cliente de Cloudflare onboardea o habilita la función en un dominio existente, la plataforma construye y mantiene un índice optimizado para IA sobre ese sitio. El flujo usa la misma base tecnológica de Cloudflare AI Search (antes AutoRAG) y el conector de sitio web como fuente de datos:

  • Procesamiento en tiempo real de páginas nuevas o actualizadas, con gestión automática de almacenamiento, embeddings, chunking, modelos y recursos de cómputo.
  • Control de inclusión/exclusión granular: el editor decide qué entra, qué se queda fuera, quién accede y cómo. La desactivación total del índice es posible en cualquier momento.
  • APIs estándar para consumo inmediato:
    • MCP Server (Model Context Protocol): los agentes pueden conectarse de forma directa y estandarizada. Incluye soporte para NLWeb tools (protocolo abierto impulsado por Microsoft para consultas en lenguaje natural sobre sitios).
    • Search API flexible: resultados JSON estructurados con relevancia.
    • LLMs.txt y LLMs-full.txt: archivos estándar que ofrecen a los modelos un mapa legible por máquina del sitio en tiempo de inferencia (Cloudflare ya publica un ejemplo en su documentación).
    • Bulk Data API: ingesta masiva de contenido bajo reglas del editor, para evitar “n” lecturas documento a documento.
    • Pub/Sub: suscripciones a eventos y payloads de cambios en tiempo real, para que los proveedores se mantengan al día sin recrawling constante.
    • Directivas de descubribilidad: entradas en robots.txt y .well-known para que los agentes y rastreadores reconocidos descubran y usen las APIs automáticamente.

El índice se integra con AI Crawl Control, dando visibilidad de accesos, políticas y permisos; y se complementa con Pay per crawl y x402 para monetizar de forma directa. El propietario del sitio controla en todo momento quién, cómo y cuánto.


Para constructores de IA: un feed permissionado de la web

Quien crea agentes o plataformas de IA podrá descubrir y suscribirse a datos web de alta calidad y con permiso expreso a través de índices individuales:

  1. Descubrir sitios que han optado por exponer sus índices (directorio navegable con filtros).
  2. Evaluar el contenido antes de acceder (metadatos: unicidad, profundidad, relevancia, popularidad).
  3. Pagar un precio justo por acceso (Pay per crawl) cuando el contenido lo amerite, con flujo de ingreso al creador.
  4. Suscribirse a cambios para recibir eventos en tiempo real y evitar recrawling.

Este paso reduce costes (menos rastreo, menos duplicación), acelera tiempos (se procesan solo cambios), mejora la calidad (datos estructurados) y respeta la voluntad del editor. El acceso siempre queda a discreción del propietario del dominio.


Open Index: búsqueda unificada a escala (con control e ingresos de abajo arriba)

Gestionar decenas o cientos de suscripciones por sitio puede complicarse cuando la necesidad es buscar en ancho. Para ello, Cloudflare lanzará Open Index, una colección agregada y opt-in de índices individuales accesible desde un solo lugar:

  • Acceso unificado: consultar y recuperar datos de muchas webs participantes a la vez; útil como capa de búsqueda web lista para consulta y como colección curada.
  • Ámbitos temáticos: paquetes por noticias, documentación, investigación científica, etc., o un índice general para exploración amplia.
  • Monetización ascendente: los resultados provienen de índices de sitios individuales, y la compensación fluye de vuelta a cada sitio vía Pay per crawl.

Así, los constructores eligen: precisión y texto completo con índices por sitio (para entrenamiento, agentes, experiencias de búsqueda de primera parte), o cobertura amplia con Open Index cuando se necesita escala y descubrimiento rápido.


Qué gana cada actor

Creadores y editores de contenido

  • Control total: decidir qué exponer, a quién, con qué condiciones y cómo auditar accesos.
  • Visibilidad: un camino directo para que agentes y LLMs descubran y usen su contenido de forma estandarizada.
  • Ingresos: Pay per crawl/x402 para monetizar el acceso sin depender de acuerdos opacos.

Constructores de IA (equipos, plataformas, integradores)

  • Calidad y frescura: suscripciones pub/sub a cambios estructurados, menos ruido y recrawling.
  • Eficiencia: menor coste por consulta, previsibilidad de calidad y precio por fuente.
  • Cumplimiento: relación directa con el propietario del sitio, con permisos explícitos y trazabilidad.

Ecosistema

  • De “rastear todo y ver qué cae” a conectar con fuentes que eligen participar; del “uso presunto” a acceso permissionado y compensado. Un marco más sano para la web generativa.

Cómo funcionará en la práctica (visión de flujo)

  1. Onboarding: el propietario del dominio activa AI Index desde Cloudflare.
  2. Construcción del índice: el sistema procesa el sitio (con tecnología de AI Search), crea embeddings y APIs (MCP, Search, Bulk, LLMs.txt, pub/sub) y aplica AI Crawl Control.
  3. Reglas y monetización: el editor define inclusiones/exclusiones, ** permisos**, precios y x402.
  4. Descubrimiento: los constructores encuentran el dominio en el directorio, revisan metadatos y se suscriben (o consultan).
  5. Actualizaciones: el sitio envía eventos en tiempo real; el proveedor consume bulk o dispara una consulta; si procede, paga por acceso y registra trazabilidad.
  6. Agregado: el editor puede optar por Open Index para mayor descubribilidad; sigue manteniendo control y retribución.

Preguntas y respuestas clave

¿Es obligatorio activar AI Index al usar Cloudflare?
No. Es opt-in. El editor elige activarlo, decide qué contenido indexar y quién puede acceder. También puede desactivar por completo la función.

¿Qué estándares soporta para agentes y LLMs?
Incluye MCP (Model Context Protocol) para conexión directa de aplicaciones agénticas, soporte para NLWeb tools (estándar abierto de consultas en lenguaje natural), archivos LLMs.txt/LLMs-full.txt para mapa legible por máquina en tiempo de inferencia y directivas de descubribilidad en robots.txt y .well-known.

¿Cómo se gestiona la monetización y la trazabilidad de accesos?
Con Pay per crawl y x402 se puede cobrar por acceso. AI Crawl Control ofrece auditoría, reglas y permisos. El pago fluye de vuelta al sitio que origina el contenido, incluso cuando el acceso ocurre desde Open Index.

¿Qué ventaja tiene el modelo pub/sub frente al rastreo tradicional?
Reduce costes y latencia: el proveedor recibe eventos estructurados cuando cambia el contenido, sin recrawls periódicos que desperdician CPU y golpean a los servidores del editor. Además, facilita métricas de calidad (unicidad, profundidad, relevancia) antes de comprar acceso.

¿Puede un sitio exigir reglas de uso o retirar su contenido?
Sí. El editor controla políticas (qué, quién, cómo, cuánto) y puede opt-out total. El acceso siempre queda a discreción del propietario del dominio.


Qué viene ahora y cómo participar

Cloudflare inicia con beta privada. Los editores que quieran activar AI Index y los constructores que busquen consumir el feed (índices por dominio o Open Index) pueden inscribirse desde hoy para ser considerados. La visión: una web en la que los sitios decidan cómo su contenido alimenta a la IA, y en la que los agentes reciban datos fiables, estructurados y con permisos a escala.

Contexto: Cloudflare enmarca AI Index dentro de su connectivity cloud, una plataforma que protege redes corporativas, acelera apps a escala Internet, mitiga DDoS, bloquea intrusiones y facilita la transición a Zero Trust. Con AI Index y Open Index, la compañía apuesta por un ecosistema más justo entre creadores, modelos y agentes.


Preguntas frecuentes

¿Qué es exactamente LLMs.txt y cómo se diferencia de robots.txt?
LLMs.txt (y LLMs-full.txt) son archivos legibles por máquina que describen cómo debe usar un LLM el contenido del sitio en tiempo de inferencia (p. ej., rutas relevantes, formatos, límites). Robots.txt orienta rastreo; LLMs.txt orienta consumo por modelos.

¿Puedo usar el índice para mejorar la búsqueda interna de mi web?
Sí. El índice del dominio —propiedad del editor— puede usarse para experiencias modernas de búsqueda en el propio sitio, además de exponer APIs estandarizadas para agentes externos.

¿Cómo sabrán los proveedores de IA que mi sitio ofrece AI Index?
A través de directivas de descubribilidad en robots.txt y rutas .well-known, y mediante el directorio de sitios que optan por publicar su índice. Los agentes MCP también pueden descubrir el endpoint automáticamente.

¿Qué ocurre si cambio de opinión sobre monetización o acceso?
Las políticas son dinámicas. El editor puede ajustar reglas y precios, revocar permisos o salirse del programa. El objetivo es que el control permanezca en el sitio de origen.

¿Cómo se protege la privacidad y el cumplimiento normativo?
El editor decide qué contenido indexar y qué excluir. El acceso se gestiona con políticas, permisos y auditoría (AI Crawl Control). Para datos sensibles o regulados, la recomendación es filtrar/excluir y definir condiciones estrictas de acceso y uso.

vía: blog.cloudflare

encuentra artículos

newsletter

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

LO ÚLTIMO

×