Un año, tres veces más bots con IA. Es la fotografía que deja el nuevo State of the Internet (SOTI) de Akamai: los bots impulsados por inteligencia artificial han crecido un 300 % interanual y ya lanzan miles de millones de solicitudes contra sitios de todas las industrias. El fenómeno, dice la compañía, no es marginal: están distorsionando operaciones y analítica, erosionando los ingresos por publicidad y poniendo a prueba la seguridad en publicaciones digitales, comercio electrónico, salud y servicios financieros.
Akamai lo resume sin rodeos: “La subida de los bots de IA ha pasado de ser un asunto del equipo de seguridad a un imperativo de negocio para el consejo de administración”, en palabras de Rupesh Chokshi, vicepresidente sénior y director general de Seguridad de Aplicaciones.
La advertencia llega con cifras y con contexto. La compañía —que procesa más de un tercio del tráfico web global desde su red— ha observado un auge de scraping masivo y automatizado, pero también de fraudes apoyados en modelos generativos: suplantaciones, ingeniería social más creíble, campañas de phishing más eficaces y documentos o imágenes falsos con calidad profesional. Y todo eso en paralelo a un ecosistema donde conviven bots “buenos” (indexación, accesibilidad) con bots “malos” (FraudGPT, WormGPT, ad fraud, estafas de devolución…).
Qué está ocurriendo (y dónde golpea más)
El informe Digital Fraud and Abuse 2025 dibuja un patrón común: la IA abarata y acelera tanto el scraping como la automatización del abuso. Cualquiera con conocimientos básicos puede ensamblar, a partir de bibliotecas abiertas y servicios en la nube, un bot capaz de navegar defensas de primera generación, rotar identidades y actuar a ritmo de millones de peticiones.
Hallazgos clave por vertical:
- Medios y publishing: es el sector más castigado, concentra el 63 % de los disparos atribuidos a bots de IA. Las redacciones sufren copias sistemáticas de titulares, imágenes y artículos; los paneles de analítica se corrompen y el inventario publicitario pierde valor cuando parte del tráfico no es humano.
- Comercio electrónico: lidera en actividad de bots con más de 25.000 millones de solicitudes en dos meses. No solo hay scraping de precios y stock; también rellenado de carritos, abusos en cupones, fraude de devoluciones y “scalping” de lanzamientos.
- Sanidad: > 90 % de los disparos en salud provienen de scraping, en su mayoría de bots de búsqueda y entrenamiento. La exposición aquí no es solo económica: el riesgo es tocar datos sensibles o huellas que faciliten futuros ataques.
- Panorama transversal: los bots “útiles” coexisten con campañas maliciosas que degradan el rendimiento, inflan costes de infraestructura y sesgan métricas críticas (sesiones, conversiones, funnels). La línea entre ambos es cada vez más difícil de trazar si la organización carece de inventario, telemetría y gobierno de bots.
Un apunte que sorprende: pese a su crecimiento del 300 %, los bots con IA aún representan “casi el 1 %” del tráfico de bots observado por Akamai. El dato sugiere que la calidad, más que el volumen, es la mayor amenaza hoy: pocos bots bien orquestados generan un impacto desproporcionado.
Por qué los bots con IA son distintos (y más difíciles)
1) Evasión por diseño. La nueva generación emula gestos humanos: movimientos y tiempos de ratón, cambios de contexto, scroll aleatorio, secuencias de lectura plausibles. También rotan identidades (navegadores, fingerprints, IPs y ASN) y mixean rutas (web, API y móvil) para que la pista se enfríe.
2) “Comprensión” del sitio. Gracias a modelos que “leen” el DOM o imágenes, los bots pueden interpretar interfaces, resolver captchas débiles, “entender” flujos de checkout o formularios y encontrar atajos no documentados.
3) Automatización sin fricción. La cadena completa —descubrimiento, instrucción, ejecución, refinamiento— puede automatizarse con IA, multiplicando el rendimiento de actores maliciosos y acortando ciclos de prueba y error.
4) Coste marginal bajo. Con infra serverless, redes de proxies comerciales y modelos alojados en terceros, lanzar un ataque cuesta poco y escala bien. A veces, el coste de defender supera al de atacar.
Consecuencias de negocio: del indicador contaminado al euro que no llega
- Analítica rota: funnels y KPIs pierden fiabilidad; decisiones de producto o marketing se toman con datos contaminados.
- Publicidad erosionada: el % de tráfico inválido sube; impresiones y clics no humanos recortan eCPM y ROI.
- Rendimiento y costes: picos de bots disparan CPU, ancho de banda y almacenamiento; se pagan instancias y CDN para servir a no-personas.
- Seguridad y fraude: más suplantaciones creíbles, documentos falsos convincentes, campañas de phishing hiperpersonalizadas y fraude de identidad que supera controles débiles.
- Marca y cumplimiento: scraping indiscriminado rompe términos de uso; la respuesta inadecuada puede chocar con privacidad o competencia.
Qué propone Akamai: tres marcos OWASP y una priorización inteligente
El informe recomienda alinear capacidades con los tres OWASP Top 10 vigentes:
- Aplicaciones web (riesgos como Broken Access Control, Injection, Sensitive Data Exposure).
- APIs (Broken Object Level Authorization, Security Misconfiguration, Excessive Data Exposure, etc.).
- LLMs (nuevo marco para abusos específicos de IA: prompt injection, data exfiltration por salida, model denial, overreliance on LLM…).
La idea no es “instalar una herramienta”, sino mapear vulnerabilidades conocidas al apetito de riesgo de cada negocio y priorizar defensas con cabeza: qué activo (página, API, endpoint de IA) aporta valor, qué ataque se observa y qué control reduce más riesgo por euro invertido.
Medidas concretas que funcionan (y por qué)
1) Gestión de bots con allowlist dinámica y señales de cliente
- Clasifica bots “buenos” (indexadores, accesibilidad) y gatea a desconocidos.
- Verifica cliente con señales de baja fricción (pruebas pasivas, integridad de navegador, JA3/JA4, TLS fingerprinting, device attestation cuando sea posible).
- Sirve canary content (marcas de agua invisibles) para detectar re-publicaciones y entrenamiento no consentido.
2) Protege APIs como si fueran frontales (porque lo son)
- Autorización por objeto (BOLA) y control de exposición excesiva.
- Cuotas y rate-limiting adaptativos por identidad, ASN, risk score.
- Honeypots de API (endpoints trampa) para señalizar clientes abusivos.
3) Cierra la vía de IA: guardrails para prompts, modelos y salidas
- Filtra y clasifica datos sensibles antes de que entren en prompts; impide que salgan en respuestas (DLP de doble sentido).
- Aísla agentes y herramientas (principio de menor privilegio); limita acciones y exige confirmaciones fuertes para operaciones críticas.
- Observa: registra prompts, contexto, tools y salidas con metadatos para auditoría y forensics.
- Evalúa: corre red teaming automatizado contra prompts, RAGs y servidores MCP antes de pasar a producción.
4) Resiliencia frente a scraping (no solo robots.txt)
- Legal + técnico: términos de uso y cabeceras “noai”/“noscrape” acompañados de controles reales.
- Dinámica de contenidos: views que obligan a clientes a ejecutar código (sin penalizar accesibilidad ni SEO).
- Tarificación y gating: tiering de datos, pago por API y licencias claras para uso de entrenamiento.
5) Operación basada en datos
- Telemetría unificada (web, API, móvil, IA) y paneles reconciliados que separen tráfico humano de automatizado.
- Equipos unidos: seguridad, producto, growth y ad ops mirando los mismos números, con runbooks para picos de bots.
Señales de que su sitio tiene un problema de bots con IA
- CTR anómalos con rebotes muy bajos o tiempos de permanencia irreales.
- Picos nocturnos por regiones donde no hay negocio, con IPs rotatorias y ASN sospechosos.
- API con lecturas masivas de listas o endpoints de búsqueda, sin correlato en web.
- Repeticiones de prompts o llamadas a MCP que agotan cuotas sin crear valor.
- Re-publicaciones de contenidos con marcas invisibles detectadas.
Qué puede hacer cada industria hoy
Medios: active canary content, cierre APIs abiertas de contenido, y licencie uso de entrenamiento cuando sea estratégico. Paneles separados para humano/no humano en ad ops.
Comercio: proteja precio/stock con cuotas y risk scores; tenga listas dinámicas de bots permitidos; refuerce controles contra fraude de devolución y abuso de cupones.
Salud: minimice superficies de scraping (catálogos, contenidos médicos); registre todo acceso automatizado; revise que modelos/IA no expongan PHI en respuestas.
Finanzas: aplique device binding y pruebas pasivas fuertes; vigile bots que rellenan formularios para abrir vías a phishing posterior.
Conclusión: de “bloquear bots” a gobernar la IA
La web nació abierta; la IA la ha hecho más valiosa y más atacable. El mensaje del SOTI es nítido: no basta con listas negras y captchas. Toca gobernar la IA —qué entra en los modelos y prompts, qué sale, quién accede y para qué— y gestionar bots como un producto: inventario, métricas, SLOs y playbooks.
Quien lo haga a tiempo protegerá ingresos, limpiará analítica y evitará que el futuro de su negocio lo escriban bots que no pagan la cuenta.
Preguntas frecuentes
¿Qué es un AI scraper bot y cómo se diferencia de un bot clásico de indexación?
Un AI scraper bot utiliza modelos para interpretar páginas y automatizar la extracción de datos a gran escala, evadiendo controles básicos (rotación de identidades, tiempos humanos falsos, resolución de captchas débiles). A diferencia de un indexador legítimo (Google, Bing), no siempre respeta robots.txt, términos de uso ni ofrece valor recíproco (tráfico de calidad), y suele apuntar a contenidos completos, catálogos o conjuntos masivos para entrenamiento.
¿Cómo aplico el OWASP Top 10 de LLM en mi empresa si ya tengo WAF y bot management?
El OWASP Top 10 LLM complementa (no sustituye) a web/API. Añada controles específicos: filtrado y marcado de datos sensibles en prompts y salidas; guardrails de agentes y MCP; registro de prompts/contexto/tools; red teaming automatizado en CI/CD (inyección, jailbreaks, exfiltración). Priorice según riesgo del caso de uso (p. ej., RAG con datos internos vs. asistente público).
¿Cómo permito bots “buenos” y freno los “malos” sin romper SEO ni accesibilidad?
Implemente listas de permiso con verificación de cliente (firmas de agente, JA3/JA4, integridad de navegador, ASN), cuotas y rutas dedicadas (web vs. API). Mantenga un catálogo vivo de bots aceptados (indexación, accesibilidad) y aplique retos pasivos y limitaciones para el resto. A SEO le favorece un allowlist bien gestionado, no el “todo vale”.
¿Puedo bloquear legalmente bots de entrenamiento de IA?
Consulte a su asesoría jurídica: robots.txt no es vinculante por sí mismo. Combine términos de uso, metadatos “noai”/“noscrape”, licencias y controles técnicos (bloqueo, rate limiting, canary content). Documente y notifique condiciones de acceso; muchos proveedores de IA respetan señales cuando la postura es clara y hay vías de licencia.