Cloudflare ha lanzado una nueva herramienta gratuita diseñada para proteger a sus clientes del ‘web scraping’ realizado por bots de Inteligencia Artificial (IA). Esta medida busca evitar que dichos bots recopilen datos de sitios web y, a su vez, contribuye a una Internet más segura para los creadores de contenido.
Una Respuesta a la Demanda de Datos de IA Generativa
El auge de la IA generativa ha incrementado notablemente la demanda de datos para entrenar modelos y realizar inferencias. Para satisfacer esta demanda, muchos bots recurren al ‘web scraping’, un proceso que consiste en extraer contenido HTML de sitios web para almacenarlo y utilizarlo en la formación de algoritmos de IA.
Aunque el ‘web scraping’ es legal, su uso desmedido y poco transparente por parte de algunos bots ha generado preocupaciones entre los propietarios de sitios web. Cloudflare ha respondido a esta problemática incorporando una nueva función en su servicio de seguridad en Internet que bloquea automáticamente los bots de IA dedicados al ‘web scraping’.
Nueva Función de Seguridad para Bloquear Bots de IA
La herramienta de Cloudflare, disponible para todos los clientes, incluidos aquellos que utilizan el nivel gratuito de sus servicios, busca proporcionar un control adicional sobre el acceso a los datos. Para activarla, los usuarios deben dirigirse al menú de ‘Seguridad’ en su panel de control, seleccionar ‘Bots’ y habilitar la opción ‘Raspadores y rastreadores de IA’. Una vez activada, la función comenzará a bloquear los intentos de raspado realizados por estos bots.
Cloudflare ha diseñado esta herramienta con la capacidad de actualizarse automáticamente para incluir nuevas huellas de bots infractores, asegurando así una protección continua contra métodos de recopilación de datos emergentes.
Datos Reveladores sobre el Uso de Bots de IA
Según los datos proporcionados por Cloudflare, los bots de IA son extremadamente activos en la web. El Bytespider de ByteDance, el Amazonbot de Amazon, el ClaudeBot de Claude y el GPTBot de OpenAI son algunos de los más activos en su plataforma. Bytespider lidera la lista con intentos de acceso al 40,40% de los sitios web clientes, seguido de GPTBot con un 35,46%. ClaudeBot, por su parte, ha intentado acceder al 11,17% de los sitios.
Estos números subrayan la prevalencia y el impacto de los bots de IA en la recopilación de información, destacando la importancia de medidas efectivas para proteger los datos de los sitios web.
Un Problema en Expansión
En junio de este año, se identificó que los bots de IA accedieron al 39% del millón de principales sitios web protegidos por Cloudflare. Sin embargo, solo el 2,98% de estos sitios había tomado medidas para bloquear dichas solicitudes en ese momento.
Cloudflare sigue comprometida en su misión de mantener la seguridad en Internet y garantizar que los creadores de contenido tengan control sobre cómo se utiliza su material para entrenar modelos de IA. La compañía también observa que otras plataformas, como Reddit, están adoptando medidas similares, como actualizar sus Protocolos de Exclusión de Robots para limitar el acceso automatizado a datos públicos.
En resumen, con la implementación de esta nueva función, Cloudflare refuerza su papel en la protección de la privacidad y la seguridad de los datos en la web. Al proporcionar a los clientes una herramienta eficaz para bloquear bots de IA, la compañía no solo ayuda a preservar la integridad del contenido en línea, sino que también contribuye a una Internet más segura y respetuosa con los derechos de los creadores.