Perplexity ignoriert offenbar gezielt robots.txt– Crawling trotz untersagtem Zugriff
Ein aktueller Bericht von Cloudflare enthüllt: Die KI-Suchplattform Perplexity nutzt offenbar „Stealth-Crawler“, um gezielt Webseiten zu besuchen, obwohl diese den Zugriff per robots.txt oder Web Application Firewall (WAF) untersagen.
Wie Cloudflare Zugriff trotz Block offenbarte
Cloudflare richtete extra neue, nicht öffentlich verfügbare Domains mit expliziten Sperren via robots.txt und WAF ein. Perplexity lieferte dennoch Inhalte aus diesen Seiten, obwohl sie nicht zugänglich sein dürften. Das legt nahe, dass das Crawling erfolgt, obwohl es ausdrücklich untersagt ist.
Verschleierungs-Taktiken im Eiinsatz
- Perplexity beginnt mit offiziell deklarierten User Agents wie „PerplexityBot“ oder „Perplexity-User“.
- Blockiert man diese, setzt das System auf getarnte Agents – etwa als „Google Chrome auf macOS“ – um Sperren zu umgehen.
- Die Anfragen stammen aus wechselnden IP-Adressen und verschiedenen Autonomen Systemnummern (ASNs), die nicht offiziell gelistet sind.
- Laut Cloudflare belief sich die tägliche Anfragezahl auf Millionen von Anfragen über zehntausende Domains.
Folgen durch Cloudflare
- Perplexity wurde als verifizierter Crawler entfernt und kann seitdem gezielter blockiert werden.
- Cloudflare hat neue Bot-Filter implementiert, um solche unerlaubten Zugriffe zu erkennen und zu sperren.
Perplexity wehrt sich & Kritiker warnen
- Ein Sprecher bezeichnete den Bericht als „Medienaktion“ mit „zahlreichen Missverständnissen“ und bestritt bewusstes Fehlverhalten.
- Fachkreise blicken kritisch auf das Verhalten: Es schürt Bedenken bezüglich Urheberrechten, ethischer Datennutzung und Vertrauen im Internet.
Branchensicht & technologische Dimension
- Die Schilderungen legen nahe, dass Perplexity Regeln bewusst umgeht – was insbesondere für KI-Plattformen bedenklich ist.
- Zum Vergleich: OpenAI respektiere solche Sperren konsequent und weiche nicht aus.