Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

Cloudflare combate el scraping masivo de datos con su nueva función AI Labyrinth

La inteligencia artificial generativa ha revolucionado la creación de contenidos, pero también ha traído consigo prácticas poco éticas como el scraping masivo de datos. En este contexto, Cloudflare ha lanzado AI Labyrinth, una herramienta que busca frenar a los bots que rastrean y extraen información de las páginas web sin permiso, empleando para ello un ingenioso sistema basado en páginas generadas por IA.

Desde el auge de plataformas como ChatGPT, Claude, Perplexity, Llama o Gemini, la carrera por entrenar modelos de inteligencia artificial cada vez más avanzados ha intensificado la necesidad de grandes volúmenes de datos. Esto ha provocado que algunas empresas recurran al scraping de sitios web, incluso ignorando directrices de exclusión como el ‘no crawl’. Según cifras de Cloudflare, los crawlers de IA generan más de 50.000 millones de solicitudes diarias a su red.

La función AI Labyrinth busca combatir esta práctica creando un «laberinto» de páginas web generadas por IA. Estos sitios, aunque plausibles y cargados de datos científicos reales, no contienen información útil para entrenar modelos de IA. El objetivo es que los bots desperdicien tiempo y recursos procesando este contenido irrelevante.

A diferencia de los sistemas tradicionales que bloquean bots —alertando así a los atacantes—, AI Labyrinth los deja entrar en un entorno controlado de páginas ficticias. Este mecanismo actúa como un honeypot de nueva generación, engañando solo a bots y no a usuarios reales, ya que una persona difícilmente navegaría por varias páginas irrelevantes seguidas.

Para desarrollar este sistema, Cloudflare ha utilizado su plataforma Workers AI y modelos de código abierto, creando contenido pre-generado y almacenado en sus servidores R2 para agilizar la respuesta. Además, estos enlaces se integran de forma oculta en el HTML de las páginas reales, asegurando que solo los bots sospechosos los detecten.

Uno de los aspectos más innovadores es que cada intento de scraping detectado alimenta sus modelos de aprendizaje automático, ayudando a identificar patrones y nuevas firmas de bots maliciosos. De esta forma, cada bot que cae en el laberinto contribuye a reforzar la defensa de toda la red Cloudflare.

La activación de AI Labyrinth es sencilla y está disponible para todos los clientes, incluso en el plan gratuito. Basta con activar la función desde el panel de gestión de bots en la consola de Cloudflare.

Este sistema marca un paso adelante en la lucha contra el uso indebido de datos en la era de la inteligencia artificial. Mientras los gigantes tecnológicos buscan nuevas formas de entrenar sus modelos, Cloudflare ofrece a empresas y administradores de páginas web una solución inteligente y proactiva para proteger sus contenidos.

La compañía ha confirmado que continuará mejorando esta función para integrarla aún más con el diseño de las páginas web y dificultar todavía más su detección por parte de los rastreadores. Con AI Labyrinth, Cloudflare demuestra que la defensa contra el scraping no solo pasa por bloquear, sino por confundir y desgastar a los atacantes.