El rastreo en Perplexity (crawling) ha generado bastante controversia, especialmente por la forma en que esta IA busca acceder a contenido web que ha sido explícitamente bloqueado por los propietarios de las páginas. Según informes de Cloudflare, la startup utiliza una serie de técnicas encubiertas para evadir las reglas y bloqueos establecidos por los sitios, lo cual plantea serias dudas sobre la ética y el cumplimiento de buenas prácticas en el scraping automatizado. En este contexto, es fundamental entender cuáles son esas tácticas y cómo operan estas técnicas encubiertas para evitar ser detectadas o bloqueadas.
Técnicas encubiertas de rastreo en Perplexity según Cloudflare
La capacidad de un crawler para mantenerse oculto mientras recopila datos sin respetar las indicaciones del propietario del sitio puede poner en jaque la confianza digital y afectar tanto a creadores de contenido como a empresas tecnológicas que trabajan con datos legítimos. Aquí se describen las principales estrategias que emplea Perplexity, según los análisis realizados por Cloudflare y otros expertos en seguridad y web crawling.
Cambio de IP y rotación automática
Una de las técnicas más utilizadas por Perplexity para evadir controles es la rotación constante de direcciones IP. Cuando un sitio implementa bloques mediante firewalls o listas negras —como los WAF (Web Application Firewalls)— o simplemente filtra ciertos rangos IP conocidos, el crawler responde cambiando rápidamente su dirección IP. Esto lo logra usando una variedad de fuentes externas o servicios que proporcionan IPs diferentes en cada solicitud.
Este método hace que sea muy difícil bloquear al bot solo con restricciones basadas en IPs específicas, porque el crawler puede cambiar su identidad digital justo cuando detecta un bloqueo. Además, Perplexity no solo rota sus IPs dentro del mismo ASN (Autonomous System Number), sino que también cambia entre diferentes ASN para complicar aún más su rastreo por parte de sistemas automatizados.
Técnica | Cómo funciona | Efecto |
---|---|---|
Rotación automática | Cambia automáticamente sus IPs ante un bloqueo detectado | Dificulta bloquear mediante listas blancas/negras |
Uso de múltiples ASN | Alterna entre distintas redes controladas por diferentes operadores | Esconde su verdadera fuente y evade filtros |
Esta rotación no solo se limita a cambiar la IP visible; también implica alterar atributos relacionados con la red, dificultando aún más su rastreo mediante señales tradicionales.
Uso de agentes de usuario personalizados
Otra estrategia clave es la manipulación del agente de usuario (user agent). El rastreo en Perplexity inicialmente usa un user agent declarado, por ejemplo, «PerplexityBot», pero cuando se enfrenta a restricciones como robots.txt o bloqueos específicos, cambia su identificación por uno genérico: simula ser un navegador común como Google Chrome en macOS.
Este cambio se realiza con precisión: primero intenta acceder con su agente oficial; si esto falla o recibe respuesta negativa, pasa a usar agentes impersonados. La idea tras esto es parecer un visitante humano normal y corriente, evitando así ser detectado como un crawler automatizado.
Ejemplo práctico:
- User agent declarado:
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user)
- Cuando se bloquea:
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36
Este cambio le permite seguir accediendo a contenidos incluso cuando los mecanismos tradicionales identifican y restringen bots oficiales.
Simulación de comportamiento humano
Más allá del cambio técnico en identidades digitales, Perplexity también intenta imitar patrones humanos reales durante el proceso de rastreo —una técnica conocida como «simulación comportamental». Esto incluye variaciones en los tiempos entre solicitudes para parecer más natural e incluso ajustar sus interacciones según respuestas previas del servidor.
Cloudflare señala que cuando estos intentos fallan debido a bloqueos activos (robots.txt, límites rate limit), el bot recurre a otras fuentes alternativas —como otros sitios web— para obtener información menos específica pero todavía útil para sus fines AI. Sin embargo, esa información suele estar menos detallada y refleja claramente cuándo sus actividades han sido obstaculizadas con éxito.
Estas técnicas encubiertas muestran una intención clara: evitar cumplir con las reglas explícitas establecidas por los administradores web y continuar recopilando datos sin permiso ni respeto por las políticas establecidas.
La combinación del cambio constante de IPs y ASN junto con agentes falsificados y simulaciones comportamentales hace que el rastreo en Perplexity sea mucho más difícil de detectar o bloquear mediante métodos convencionales basados únicamente en reglas simples u opciones básicas del servidor web. La práctica revela cómo algunas startups están priorizando la obtención rápida e indiscriminada de datos frente al respeto por las políticas digitales existentes —un tema delicado cuya regulación todavía está evolucionando (fuente: Cloudflare).
Preguntas frecuentes sobre rastreo en Perplexity y técnicas encubiertas
¿Qué técnicas utiliza el rastreo en Perplexity para evadir bloqueos?
El rastreo en Perplexity emplea varias técnicas encubiertas, como la rotación automática de IPs, el uso de múltiples ASN, cambios en los agentes de usuario y simulaciones de comportamiento humano. Estas estrategias le permiten esquivar controles tradicionales y seguir recopilando datos incluso cuando los sitios implementan bloqueos o restricciones.
¿Cómo consigue el rastreo en Perplexity mantenerse oculto durante el scraping?
Perplexity mantiene su actividad oculta mediante cambios constantes en su dirección IP, alterando atributos relacionados con la red, y modificando sus agentes de usuario para parecer un navegador normal. Además, simula patrones humanos en sus solicitudes para evitar ser detectado por sistemas automatizados.
¿Cómo proteger mi sitio contra el rastreo encubierto como el de Perplexity?
Puedes implementar medidas avanzadas como detección basada en comportamiento anómalo, análisis profundo del tráfico y restricciones específicas para agentes sospechosos o patrones inusuales.
¿Qué diferencia hay entre un bot legítimo y uno que usa técnicas encubiertas como las descritas?
Un bot legítimo suele respetar robots.txt, rate limits y otras reglas establecidas; mientras que uno con técnicas encubiertas intenta evadir esas reglas mediante cambios técnicos constantes e imitaciones humanas.