Tech & Trends Perplexity zapft Verlagsseiten an – Cloudflare deckt illegales Crawling auf

Perplexity zapft Verlagsseiten an – Cloudflare deckt illegales Crawling auf

Cloudflare erwischt KI-Suchmaschine Perplexity bei systematischem Datenklau. Trotz Blockaden saugt das Startup täglich Millionen Inhalte ab – mit Tarnmethoden wie aus dem Hacker-Handbuch.

Der Datenkrieg zwischen Web-Publishern und KI-Unternehmen eskaliert. Cloudflare hat dem KI-Suchassistenten Perplexity eine Falle gestellt – und das Startup prompt dabei ertappt, wie es mit Hacker-Methoden Webseiten-Sperren umgeht.

Laut „t3n“ setzt Perplexity heimliche Crawler ein, die sich als normale Browser tarnen, um an Inhalte zu gelangen, die eigentlich für KI-Bots gesperrt sind.

Die digitale Falle schnappt zu

Cloudflare-Experten haben für ihren Test mehrere neue Domains mit restriktiven robots.txt-Dateien eingerichtet, die jeglichen automatisierten Zugriff untersagten. „Wir führten ein Experiment durch, indem wir Perplexity AI Fragen zu diesen Domains stellten und entdeckten, dass Perplexity dennoch detaillierte Informationen über die exakten Inhalte dieser gesperrten Domains lieferte”, erklärten die Cloudflare-Experten Gabriel Corral, Vaibhav Singhal, Brian Mitchell und Reid Tatoris laut „it-daily.net“.

Die Methode ist raffiniert: Erst testet Perplexity mit offiziellen Crawlern, ob eine Website zugänglich ist. Bei Blockaden aktiviert das Unternehmen laut „t3n“ sogenannte „Schatten-Crawler“, die ihre wahre Identität verschleiern.

Millionen heimliche Zugriffe täglich

Die Dimension des Problems ist beachtlich.

Während Perplexitys offizielle Crawler täglich 20-25 Millionen Anfragen generieren, kommen durch die heimlichen Methoden weitere 3-6 Millionen Requests pro Tag hinzu – verteilt über zehntausende Domains, wie „it-daily.net“ berichtet. Die verdeckten Crawler geben sich als Google Chrome auf macOS aus und nutzen ausgeklügelte Verschleierungstechniken durch IP-Rotation und wechselnde Autonomous System Numbers.

Industrie formiert Widerstand

Die Reaktion der Web-Publisher fällt deutlich aus. Mehr als eine Million Websites haben sich bereits der Blockade-Bewegung gegen unerlaubtes KI-Crawling angeschlossen, darunter namhafte Medien wie Associated Press, Time und BuzzFeed, so „it-daily.net“.

Cloudflare kontert mit technischen Maßnahmen: Das Unternehmen hat laut „derstandard.at“ Perplexity aus seinem Verified-Bot-Programm entfernt und Signatur-Erkennungen für die heimlichen Crawler entwickelt.

Perplexity streitet ab, andere spielen fair

Perplexity weist die Vorwürfe zurück. Ein Unternehmenssprecher bezeichnete die Anschuldigungen gegenüber TechCrunch als bloßen „Sales Pitch“ von Cloudflare, wie „t3n“ berichtet.

Interessant: Andere KI-Anbieter wie OpenAI respektieren laut Cloudflare die robots.txt-Vorgaben korrekt und stellen das Crawling bei Blockaden ein.

Cloudflares Gegenschlag

Als langfristige Strategie plant Cloudflare laut „it-daily.net“ die Entwicklung eines „AI-Labyrinths“, das nicht-konforme Bots in Netzen aus Fake-Content gefangen hält.

Zusätzlich arbeitet das Unternehmen an einem „Pay-per-Crawl“-Marktplatz, der Website-Betreibern ermöglichen soll, für die kommerzielle Nutzung ihrer Inhalte bezahlt zu werden.

Business Punk Check

Der Fall Perplexity zeigt, wie verzweifelt KI-Unternehmen nach Trainingsdaten gieren. Die Wahrheit: Ohne fremde Inhalte sind die meisten KI-Modelle wertlos. Während OpenAI und Co. zumindest die Spielregeln befolgen, greift Perplexity zu Methoden, die an digitale Einbrüche erinnern. Für Content-Ersteller bedeutet dies: Wer seine Inhalte nicht aktiv schützt, wird ausgesaugt.

Die Ironie: KI-Unternehmen, die selbst Milliarden wert sind, wollen für Premium-Inhalte keinen Cent zahlen. Cloudflares Gegenmaßnahmen sind erst der Anfang eines Katz-und-Maus-Spiels, das die digitale Ökonomie neu definieren wird. Für Publisher heißt das: Entweder robuste technische Schutzmaßnahmen implementieren oder Geschäftsmodelle entwickeln, die KI-Nutzung monetarisieren.

Häufig gestellte Fragen

  • Wie erkennt man, ob die eigene Website von KI-Crawlern ausgesaugt wird?
    Analysieren Sie ungewöhnliche Traffic-Muster und Browser-Identitäten in Ihren Server-Logs. Achten Sie besonders auf Chrome-Browser mit ungewöhnlichen Zugriffsmustern und IP-Rotationen. Cloudflare-Kunden können bereits spezielle Erkennungstools nutzen.
  • Welche Schutzmaßnahmen sind wirklich effektiv gegen KI-Crawler?
    Über robots.txt hinaus sollten Website-Betreiber fortschrittliche Firewall-Regeln implementieren, die Verhaltens- und Zugriffsmuster analysieren. Techniken wie CAPTCHAs, JavaScript-Challenges und dynamische Inhaltsauslieferung erschweren automatisiertes Crawling erheblich.
  • Lohnt sich der Aufwand für den Schutz von Website-Inhalten gegen KI-Bots?
    Für Content-Ersteller mit hochwertigen, einzigartigen Inhalten ist der Schutz essenziell. Die Alternative – ein „Pay-per-Crawl“-Modell zu etablieren – könnte für größere Publisher lukrativer sein als der komplette Ausschluss von KI-Crawlern.
  • Wie wird sich der Konflikt zwischen Publishern und KI-Unternehmen entwickeln?
    Wir steuern auf ein zweistufiges System zu: Premium-Publisher werden Bezahlmodelle für KI-Zugriffe durchsetzen, während kleinere Websites zwischen vollständiger Blockade und offener Nutzung wählen müssen. Langfristig werden rechtliche Rahmenbedingungen diese Wild-West-Phase beenden.

Quellen: „t3n.de“, „derstandard.at“, „it-daily.net“