Zurück zum Blog
KI-Crawler-Übersicht 2026: GPTBot, OAI-SearchBot, ClaudeBot, PerplexityBot, Google-Extended
Technical GEO
14.03.2026

137 KI-Crawler durchsuchen aktuell das offene Web (ai-robots-txt, 2026). Nicht 5. Nicht 20. Einhundertsiebenunddreißig verschiedene Bots mit unterschiedlichen Aufgaben, Betreibern und Zugriffsrechten. Die meisten Website-Betreiber kennen davon bestenfalls drei oder vier. Wer keine KI Crawler Übersicht hat, kann nicht steuern, wer die eigenen Inhalte wofür verwendet.
Und genau hier liegt das Problem. 72 % der KI-Crawler respektieren die robots.txt (Dark Visitors, 2025). Der Rest ignoriert sie oder tarnt sich mit falschen User-Agents. Bytespider von ByteDance erreicht 40,4 % aller Websites, GPTBot von OpenAI 35,5 % (Cloudflare, 2024). Wer seine Sichtbarkeit in KI-Suchmaschinen kontrollieren will, muss zuerst wissen, welche Bots es gibt und was sie tun.

Was KI-Crawler sind und warum sie 2026 relevant werden
KI-Crawler sind automatisierte Programme, die Websites besuchen und Inhalte auslesen. Das Prinzip ist identisch mit dem Googlebot, der seit den 1990er Jahren das Web indexiert. Der Unterschied: KI-Crawler arbeiten nicht für klassische Suchmaschinen. Sie sammeln Daten für Large Language Models, KI-gestützte Suchsysteme und digitale Assistenten. Eine ausführliche Anleitung bietet unser KI Suche.
Die Zahl dieser Bots hat sich zwischen 2023 und 2026 vervierfacht (Dark Visitors, 2025). Das liegt daran, dass KI-Systeme immer mehr auf aktuelle Webinhalte zugreifen. ChatGPT verarbeitet über 1 Milliarde Web-Suchen pro Woche (OpenAI, 2025). Perplexity beantwortet 340 Millionen Anfragen monatlich (Perplexity, 2025). Google AI Overviews erscheinen bei 47 % aller Suchanfragen (Semrush, 2025). Jedes dieser Systeme braucht Crawler, die Inhalte liefern.
Für Website-Betreiber bedeutet das: KI-Crawler sind kein technisches Randthema. Sie sind ein neuer Kanal. Wer dort sichtbar ist, wird von Millionen Nutzern gefunden. Wer dort fehlt, verliert Traffic, den klassische Suchmaschinen nicht kompensieren. Welche Bots es konkret gibt, zeigt unsere KI Crawler Liste in den folgenden Abschnitten.
GPTBot und OAI-SearchBot: Die OpenAI-Crawler
OpenAI betreibt drei verschiedene Crawler. Und genau hier passieren die meisten Fehler, weil Website-Betreiber sie verwechseln. Mehr dazu in unserem Google Business Profile KI.
GPTBot ist der Training-Crawler. Sein User-Agent lautet GPTBot/1.0, der vollständige String enthält zusätzlich +https://openai.com/gptbot. Dieser Bot sammelt Webinhalte, die in zukünftige GPT-Modelle einfließen. Wer GPTBot blockiert, verhindert, dass die eigenen Texte zum Trainingsmaterial werden. Aber nur das. GPTBot crawlt von den IP-Bereichen, die OpenAI in seiner offiziellen Dokumentation veröffentlicht (OpenAI, 2025).
OAI-SearchBot indexiert Inhalte für ChatGPT Search. Der User-Agent lautet OAI-SearchBot/1.0. Wenn ein Nutzer ChatGPT eine Frage stellt und das System eine Web-Suche durchführt, liefert OAI-SearchBot die Ergebnisse. 92 % der ChatGPT-Suchen laufen über die Bing API (Search Engine Land, 2025), aber OAI-SearchBot ergänzt mit eigenen Ergebnissen. Wer diesen Bot blockiert, verschwindet aus ChatGPT Search.
ChatGPT-User ist der dritte Crawler im OpenAI-Ökosystem. Er wird aktiv, wenn ein Nutzer in einer ChatGPT-Konversation einen Link teilt oder eine URL analysieren lässt. Der User-Agent lautet ChatGPT-User/1.0. Dieser Bot arbeitet on-demand, nicht automatisch. Er ruft nur die Seiten ab, die ein Nutzer explizit anfordert.
Die entscheidende Erkenntnis: GPTBot blockieren und OAI-SearchBot erlauben ist für die meisten Unternehmen die richtige Strategie. So verhindern Sie Training, bleiben aber in ChatGPT Search sichtbar. Ergänzend dazu können Sie mit einer llms.txt Datei KI-Systemen gezielt mitteilen, welche Inhalte besonders relevant sind.

ClaudeBot: Der Anthropic-Crawler
Anthropic, das Unternehmen hinter Claude, betreibt ebenfalls mehrere Crawler mit unterschiedlichen Aufgaben.
ClaudeBot ist der Training-Crawler von Anthropic. Sein User-Agent lautet ClaudeBot/1.0. Er sammelt Webinhalte für das Training zukünftiger Claude-Modelle. ClaudeBot erreicht 11,2 % aller Websites (Cloudflare, 2024). Damit liegt er deutlich hinter GPTBot und Bytespider, aber seine Crawl-Frequenz ist in den letzten 12 Monaten um 58 % gestiegen (Dark Visitors, 2025).
Claude-SearchBot indexiert Inhalte für Claudes Web-Suchfunktion. Wenn Claude eine Recherche im Web durchführt, greift dieser Bot auf aktuelle Webseiten zu. Der User-Agent lautet Claude-SearchBot/1.0. Die Unterscheidung ist dieselbe wie bei OpenAI: Training und Suche sind getrennte Systeme mit getrennten Crawlern.
Claude-User wird aktiv, wenn ein Nutzer in einer Claude-Konversation eine URL teilt. Vergleichbar mit ChatGPT-User, arbeitet dieser Bot nur auf Anfrage eines echten Nutzers.
Nicht zwei Bots. Drei Bots mit drei verschiedenen Aufgaben.
PerplexityBot, Google-Extended und weitere relevante Crawler
Neben OpenAI und Anthropic gibt es eine Reihe weiterer KI-Crawler, die für Ihre Sichtbarkeit relevant sind.
PerplexityBot
PerplexityBot crawlt das Web für die KI-Suchmaschine Perplexity. Der User-Agent lautet PerplexityBot/1.0. Perplexity verarbeitet 340 Millionen Anfragen pro Monat (Perplexity, 2025) und wächst schneller als jede andere KI-Suchmaschine. Der Bot hat allerdings eine kontroverse Geschichte: WIRED (2024) wies nach, dass Perplexity in einigen Fällen robots.txt ignorierte und mit gefälschten User-Agents crawlte. Perplexity hat seitdem Besserung versprochen und ein Opt-out-Programm gestartet (Perplexity Publisher Program, 2025). Trotzdem empfehlen wir bei rankprompt.de, den Bot über Server-seitiges Blocking zu kontrollieren, wenn Sie seine Zugriffe einschränken wollen.
Google-Extended und GoogleOther
Google-Extended ist Googles Training-Crawler für Gemini. Der User-Agent lautet Google-Extended. Wer ihn blockiert, verhindert, dass Google die eigenen Inhalte für das Gemini-Training nutzt. Das hat keinen Einfluss auf die normale Google-Suche und auch nicht auf Google AI Overviews. Denn die laufen über den regulären Googlebot-Index. 33 % der Top-1.000-Websites blockieren Google-Extended (Originality.ai, 2025). GoogleOther ist ein generischer Crawler, den Google für verschiedene sekundäre Aufgaben einsetzt, darunter Forschung und Entwicklung. Sein User-Agent lautet GoogleOther. Google empfiehlt, ihn genauso zu behandeln wie Google-Extended (Google Search Central, 2025).
AppleBot-Extended und Meta-ExternalAgent
Applebot-Extended sammelt Daten für Apple Intelligence und die KI-Funktionen in Siri. Der User-Agent lautet Applebot-Extended/1.0. Der Standard-Applebot, der für die Siri-Suche zuständig ist, bleibt davon unberührt. Wer Applebot-Extended blockiert, verhindert nur das KI-Training, nicht die Siri-Suchergebnisse. Apple hat über 2,2 Milliarden aktive Geräte weltweit (Apple, 2025). Wenn Apple Intelligence auf Webinhalte zugreift, ist die potenzielle Reichweite enorm.
Meta-ExternalAgent ist Metas KI-Crawler. Der User-Agent lautet meta-externalagent/1.0. Er sammelt Trainingsdaten für Meta AI, den KI-Assistenten in WhatsApp, Instagram und Facebook. Meta AI erreicht über 700 Millionen monatlich aktive Nutzer (Meta, 2025). Änderungen an der robots.txt für Meta werden innerhalb von 24 Stunden wirksam (Meta Developer Docs, 2025).
Dazu kommen weitere Bots: Bytespider von ByteDance (User-Agent: Bytespider) trainiert die KI-Modelle hinter TikTok und erreicht mit 40,4 % die meisten Websites weltweit (Cloudflare, 2024). CCBot von Common Crawl (User-Agent: CCBot/2.0) baut den offenen Datensatz auf, den viele KI-Unternehmen als Trainingsbasis verwenden. DeepSeekBot (User-Agent: DeepSeekBot/1.0) sammelt Daten für das chinesische KI-Unternehmen DeepSeek, dessen Modelle seit Anfang 2025 international Aufmerksamkeit erregen.

Welche Crawler besuchen Ihre Website? So prüfen Sie es
Theorie ist gut, Praxis ist besser. Bevor Sie entscheiden, welche Bots Sie blockieren oder erlauben, sollten Sie wissen, welche Crawler Ihre Website tatsächlich besuchen.
Server-Logs analysieren. Jeder Webserver protokolliert Zugriffe mit User-Agent-Strings. In den Access-Logs Ihres Apache- oder Nginx-Servers finden Sie Einträge wie GPTBot/1.0 oder ClaudeBot/1.0. Filtern Sie die Logs nach bekannten KI-Bot User-Agents und Sie sehen genau, wer wie oft crawlt. Die meisten Hosting-Provider bieten Zugriff auf diese Logs über das Control Panel. Weitere Informationen liefert unser was ist GPTBot.
Cloudflare Bot Analytics. Wenn Sie Cloudflare nutzen, bietet das Dashboard unter „Security" eine Übersicht aller Bot-Zugriffe. Seit Juli 2024 gibt es einen Ein-Klick-Button, der alle bekannten KI-Crawler blockiert (Cloudflare, 2024). Die Erkennung erfasst auch Bots, die sich mit falschen User-Agents tarnen.
Google Search Console. Unter „Einstellungen" und „Crawl-Statistiken" sehen Sie, wie oft Googlebot und Google-Extended Ihre Seiten besuchen. Für andere KI-Crawler liefert die Search Console allerdings keine Daten.
Dark Visitors und ähnliche Dienste. Das Projekt Dark Visitors pflegt eine aktuelle Datenbank aller bekannten KI-Crawler mit User-Agents, Betreibern und Compliance-Status. Es generiert auch robots.txt-Snippets für die gängigsten Blockier-Szenarien. Ein Blick auf diese Datenbank lohnt sich, um die eigene Konfiguration zu überprüfen. Wer eine strukturierte Prüfung seiner gesamten KI-Sichtbarkeit durchführen will, findet in unserer GEO Audit Checkliste den passenden Rahmen.
Wie Sie den Zugriff von KI-Crawlern steuern
Sagen wir es direkt: Die robots.txt ist der einfachste, aber nicht der zuverlässigste Weg.
Robots.txt ist das Standardwerkzeug. Sie tragen den User-Agent des Crawlers ein und setzen Disallow: /, um ihn von Ihrer gesamten Website auszuschließen. 97 % der Top-1-Million-Websites haben keine KI-spezifischen Einträge in ihrer robots.txt (Cloudflare, 2024). Das bedeutet: Fast alle Websites sind für KI-Crawler komplett offen. Die Details zur Konfiguration finden Sie in unserem Artikel zu Robots.txt für KI-Crawler.
Meta-Tags und HTTP-Headers bieten granularere Kontrolle. Der nosnippet-Meta-Tag verhindert, dass Google Ihre Inhalte in AI Overviews verwendet (Google Search Central, 2025). Der X-Robots-Tag-Header funktioniert auch für PDFs und Bilder. Für die technische Umsetzung empfehlen wir unseren LLM Readiness Check, der alle relevanten Einstellungen systematisch prüft.
Server-seitiges Blocking ist die einzig zuverlässige Methode für Crawler, die sich nicht an die robots.txt halten. Über Cloudflare WAF, .htaccess-Regeln oder nginx-Konfigurationen können Sie Bots auf Netzwerk-Ebene aussperren. Cloudflare erkennt dabei auch getarnte Bots anhand ihres Verhaltensmusters.
Wichtig zu verstehen: Diese drei Methoden schließen sich nicht aus. Die beste Strategie kombiniert robots.txt für seriöse Bots, Meta-Tags für Inhalts-Kontrolle und Server-seitiges Blocking für Crawler, die Regeln ignorieren.

Welche KI-Crawler für GEO am wichtigsten sind
Nicht alle 137 Crawler sind gleich relevant. Für Ihre KI-Sichtbarkeit zählen vor allem die Bots der Systeme, die Ihre Zielgruppe tatsächlich nutzt.
OAI-SearchBot hat die höchste Priorität. ChatGPT hat 800 Millionen wöchentlich aktive Nutzer (Exploding Topics, 2025). Wer in ChatGPT Search nicht erscheint, verliert den größten KI-Suchkanal.
Googlebot bleibt unverzichtbar. Nicht wegen des Crawlers selbst, sondern weil Google AI Overviews auf den regulären Google-Index zugreifen. 47 % aller Google-Suchen zeigen AI Overviews (Semrush, 2025). Googlebot zu blockieren wäre der größte Fehler, den Sie machen können.
PerplexityBot ist der drittrelevanteste Crawler. Perplexity wächst schnell und wird zunehmend als Alternative zu Google genutzt, besonders im B2B-Bereich. Wir sehen bei unseren Kunden, dass Perplexity-Traffic zwar volumenmäßig klein, aber qualitativ hochwertig ist.
Bingbot indexiert nicht nur für die Bing-Suche, sondern liefert auch die Daten für Microsoft Copilot. Da es keinen separaten Copilot-Crawler gibt, ist Bingbot Ihr Zugang zu beiden Systemen.
Alle anderen Bots sind sekundär. Bytespider, CCBot und DeepSeekBot sind reine Training-Crawler ohne direkten Suchkanal. Für die meisten Unternehmen bedeutet das: blockieren, ohne etwas zu verlieren. Wer seine KI-Sichtbarkeit strategisch aufbauen will, findet in unserem GEO Guide den vollständigen Ansatz. Und wer die strukturierten Daten für bessere KI-Lesbarkeit optimieren möchte, profitiert von unserem Artikel zu Schema Markup für KI.
FAQ: Häufig gestellte Fragen
Welche KI-Bots gibt es aktuell? Stand 2026 listet das Projekt ai-robots-txt über 137 verschiedene KI-Crawler. Die wichtigsten sind GPTBot, OAI-SearchBot und ChatGPT-User (OpenAI), ClaudeBot und Claude-SearchBot (Anthropic), PerplexityBot (Perplexity), Google-Extended und GoogleOther (Google), Applebot-Extended (Apple), meta-externalagent (Meta), Bytespider (ByteDance) und DeepSeekBot (DeepSeek).
Was ist der Unterschied zwischen Training-Crawlern und Such-Crawlern? Training-Crawler wie GPTBot und ClaudeBot sammeln Inhalte, die in zukünftige KI-Modelle einfließen. Such-Crawler wie OAI-SearchBot und PerplexityBot indexieren Inhalte für Echtzeit-Suchergebnisse. Sie können Training blockieren und Suche erlauben, das sind unabhängige Systeme.
Wie finde ich heraus, welche KI-Crawler meine Website besuchen? Analysieren Sie Ihre Server-Logs und filtern Sie nach bekannten KI-Bot User-Agents. Cloudflare-Nutzer finden die Daten im Bot Analytics Dashboard. Alternativ nutzen Sie das Projekt Dark Visitors für eine aktuelle Datenbank aller bekannten Crawler.
Kann ich einzelne KI-Crawler blockieren und andere erlauben? Ja. In der robots.txt können Sie für jeden User-Agent individuelle Regeln definieren. Sie können GPTBot blockieren (Training verhindern), OAI-SearchBot aber erlauben (in ChatGPT Search sichtbar bleiben). Jeder Crawler wird über seinen eigenen User-Agent gesteuert.
Halten sich alle KI-Crawler an die robots.txt? Nein. Etwa 72 % der KI-Crawler respektieren die robots.txt (Dark Visitors, 2025). Perplexity wurde 2024 von WIRED nachgewiesen, die robots.txt in einigen Fällen zu ignorieren. Für nicht-konforme Crawler ist Server-seitiges Blocking über Cloudflare oder Firewall-Regeln die einzige zuverlässige Methode.
Muss ich Google-Extended blockieren, um aus Google AI Overviews zu verschwinden? Nein. Google-Extended zu blockieren verhindert nur das Gemini-Training. AI Overviews nutzen den regul��ren Google-Index über den Googlebot. Um AI Overviews zu steuern, brauchen Sie den nosnippet-Meta-Tag (Google Search Central, 2025).
Was passiert, wenn ich alle KI-Crawler blockiere? Sie verschwinden aus sämtlichen KI-Suchmaschinen. Kein ChatGPT Search, kein Perplexity, keine Erwähnung in KI-generierten Antworten. Für die meisten Unternehmen ist das nicht empfehlenswert, da KI-Suche ein wachsender Kanal mit 800 Millionen wöchentlichen ChatGPT-Nutzern ist (Exploding Topics, 2025).
---
KI Crawler Übersicht zu haben ist 2026 die Grundlage jeder fundierten GEO-Strategie. Die Zahl der Bots wächst, ihre Bedeutung für die Sichtbarkeit Ihres Unternehmens steigt mit jedem Monat. Wer heute versteht, welche Crawler es gibt und wie sie arbeiten, kann morgen gezielt steuern, wo und wie die eigenen Inhalte in KI-Systemen erscheinen. Wir bei rankprompt.de unterstützen Sie dabei, Ihre Crawler-Strategie datenbasiert aufzusetzen, sprechen Sie uns an und lesen Sie unseren umfassenden GEO Guide für den vollständigen Überblick.






