Zurück zum Blog

Was ist die robots.txt für KI-Crawler? Konfiguration erklärt

Glossar

Eine Website-Betreiberin öffnet morgens die Server-Logs und sieht in der Nacht tausende Requests von GPTBot, ClaudeBot und CCBot. Ihre erste Reaktion: blockieren, bevor jemand ihre Inhalte fürs Training missbraucht. Eine Woche später fragt sie sich, warum ihre Marke plötzlich in ChatGPT-Antworten nicht mehr auftaucht. Genau dieser Reflex ist der Grund, warum die Frage was ist robots.txt für KI zum Kernpunkt jeder GEO-Diskussion geworden ist.

Die robots.txt war jahrzehntelang ein unspektakuläres Konfigurationsfile für Suchmaschinen-Crawler. Mit dem Aufstieg von LLMs wie ChatGPT, Claude und Perplexity hat sie eine zweite Rolle bekommen, die deutlich schwieriger zu navigieren ist. Wer hier falsch konfiguriert, verliert entweder Trainings-Sichtbarkeit oder Antwort-Sichtbarkeit. Beides hat Folgen.

CTA Banner


Was ist robots.txt für KI überhaupt?

Die robots.txt ist eine reine Textdatei im Root-Verzeichnis einer Domain, die Crawlern mitteilt, welche Bereiche sie abrufen dürfen und welche nicht. Der Standard ist in RFC 9309 seit September 2022 offiziell dokumentiert (IETF, 2022). Im Kontext von KI bekommt dieses File eine neue Bedeutung, weil Betreiber nicht mehr nur Google und Bing steuern, sondern auch Crawler von OpenAI, Anthropic, Perplexity, Google DeepMind und Common Crawl.

Der entscheidende Unterschied zur klassischen SEO-Ära. Früher gab es im Wesentlichen einen Bot-Typ. Heute existieren parallel Trainings-Crawler, Live-Search-Crawler und On-Demand-Fetcher, und jeder davon hat einen eigenen User-Agent. Wer sie pauschal behandelt, macht Fehler.

Die Datei liegt unter https://ihre-domain.de/robots.txt. Crawler lesen sie, bevor sie die Site abrufen, und entscheiden auf dieser Basis, welche URLs sie besuchen. Der Knackpunkt: Die Respektierung ist freiwillig. Kein technischer Mechanismus zwingt einen Bot zur Einhaltung.

Welche KI-Crawler gibt es im Jahr 2026?

Die Landschaft der AI-Crawler hat sich in 24 Monaten von zwei relevanten Bots auf über zwölf ausdifferenziert. Wichtig ist die Trennung zwischen Training, Search und User-Triggered Fetch, weil die Blockier-Logik unterschiedlich ausfallen sollte.

User-Agent

Betreiber

Zweck

Respektiert robots.txt?

GPTBot

OpenAI

Training

Ja (dokumentiert)

OAI-SearchBot

OpenAI

Search-Index für SearchGPT

Ja

ChatGPT-User

OpenAI

On-Demand Fetch durch Nutzer

Ja

Google-Extended

Google

Training (Gemini, Vertex AI)

Ja

Google-NotebookLM

Google

On-Demand Fetch (NotebookLM)

Ja

ClaudeBot

Anthropic

Training

Ja

Claude-Web / claude-user

Anthropic

On-Demand Fetch

Ja (laut Anthropic)

PerplexityBot

Perplexity

Search-Index

Gemischt (Kritik 2024)

Perplexity-User

Perplexity

On-Demand Fetch

Nein (laut Perplexity bewusst)

CCBot

Common Crawl

Offenes Web-Archiv, Trainings-Quelle

Ja

Meta-ExternalAgent

Meta

Training (Llama)

Ja

Amazonbot

Amazon

Alexa, Training

Ja


Die wichtigste Erkenntnis aus dieser Tabelle.
Training-Crawler und Search-Crawler sind zwei verschiedene Dinge. GPTBot sammelt Daten fürs Training des nächsten Modells. OAI-SearchBot indexiert Live-Ergebnisse für die Antwort-Ausspielung. Wer beides blockiert, verschwindet komplett aus dem OpenAI-Ökosystem. Wer nur Training blockiert und Search erlaubt, bleibt zitierfähig.

CTA Banner


Wie sieht eine minimale robots.txt für KI aus?

Eine saubere Basiskonfiguration unterscheidet zwischen Training-Block und Search-Erlaubnis. Das folgende Beispiel zeigt das Prinzip, nicht die vollständige Implementierung. Für die komplette Konfiguration inklusive Edge-Cases empfehlen wir unseren Detail-Guide zur robots.txt für KI-Crawler.

# Trainings-Crawler blockieren
User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: ClaudeBot
Disallow: /

# Search- und On-Demand-Crawler erlauben
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

Sitemap: https://ihre-domain.de/sitemap.xml
# Trainings-Crawler blockieren
User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: ClaudeBot
Disallow: /

# Search- und On-Demand-Crawler erlauben
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

Sitemap: https://ihre-domain.de/sitemap.xml
# Trainings-Crawler blockieren
User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: ClaudeBot
Disallow: /

# Search- und On-Demand-Crawler erlauben
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

Sitemap: https://ihre-domain.de/sitemap.xml


Das ist die Grundlogik vieler Publisher im DACH-Raum. Sie verhindern die Nutzung der Inhalte zum Modelltraining, behalten aber die Chance, in generierten Antworten zitiert zu werden. Jede Organisation muss selbst abwägen, welche Seite dieses Kompromisses relevanter ist.


Wo ist die Grenze zwischen robots.txt und llms.txt?

robots.txt steuert Zugriff, llms.txt steuert Inhalts-Kuratierung. Die beiden Standards lösen unterschiedliche Probleme und arbeiten komplementär, nicht alternativ.

Die robots.txt sagt einem Crawler: "Du darfst diese URL abrufen oder nicht." Die llms.txt sagt einem LLM: "Hier sind die wichtigsten Inhalte meiner Site in einer für dich optimierten Struktur." Eine Site, die KI-Crawler grundsätzlich erlaubt, kann mit einer llms.txt steuern, welche Inhalte bei kurzen Kontextfenstern bevorzugt verwendet werden. Details zur Funktionsweise finden Sie in unserer Erklärung Was ist llms.txt.

Wer nur eine von beiden implementiert, verschenkt Signal. Wer beide sinnvoll kombiniert, erhöht die Kontrolle über das, was LLMs aus der Site übernehmen.

CTA Banner


Wann ist Blockieren sinnvoll, wann schadet es GEO?

Blockieren ist sinnvoll, wenn der Schutz der Inhalte vor Trainings-Nutzung wichtiger ist als Sichtbarkeit in generativen Antworten. Das trifft auf Paywalls, urheberrechtlich sensible Archive, Lizenzmaterial und Premium-Newsletter zu. Dort ist der Blockade-Ansatz ökonomisch rational.

Blockieren schadet, sobald GEO ein Marketing-Ziel ist. Wer in ChatGPT, Perplexity oder Gemini zitiert werden will, muss Search-Crawler erlauben. Ein pauschales User-agent: * / Disallow: / für alle AI-Bots ist in diesem Fall aktive Sichtbarkeits-Verweigerung.

Der gängigste Fehler in der Praxis. Agenturen blockieren reflexhaft alle AI-User-Agents, weil ein Rechtsbeauftragter besorgt ist. Drei Monate später verliert der Kunde Traffic, weil die Marke in keiner AI-Antwort mehr auftaucht. Das ist kein Datenschutz, das ist Selbst-Deindexierung im KI-Zeitalter. Hintergründe zur strategischen Ebene liefert unser Guide zu LLMO (Large Language Model Optimization).


Welche Irrtümer halten sich hartnäckig?

Irrtum eins: Die robots.txt ist rechtlich verbindlich. Ist sie nicht. Der Standard ist eine freiwillige Empfehlung. Wer technisch zugänglich ist, bleibt abrufbar, auch wenn robots.txt es untersagt. Die Datei ist ein Gentleman's Agreement, kein Rechtsakt.

Irrtum zwei: robots.txt schützt urheberrechtlich. Urheberrecht gilt unabhängig davon, ob Crawler blockiert wurden. Umgekehrt gibt die Erlaubnis in robots.txt keiner Partei eine Nutzungslizenz. Beide Sphären sind getrennt.

Irrtum drei: Alle AI-Crawler respektieren die Vorgaben. Untersuchungen von Cloudflare Radar und dem Tracker Dark Visitors dokumentieren seit 2024 regelmäßig Fälle, in denen AI-Crawler robots.txt-Anweisungen ignorieren, User-Agents fälschen oder über Proxy-Netzwerke crawlen (Cloudflare, 2024). Wer echte Blockade will, braucht zusätzlich Firewall-Regeln oder Bot-Management.

Irrtum vier: Blockieren erhöht GEO-Sichtbarkeit. Das Gegenteil stimmt. Wer Search-Crawler blockiert, wird in AI-Antworten nicht zitiert. Sichtbarkeit in generativen Engines setzt voraus, dass der entsprechende Bot die Seite lesen darf. Tiefergehende Hintergründe zu einzelnen Bots finden Sie in unseren Einzelprofilen zu ClaudeBot, PerplexityBot, Google-Extended und OAI-SearchBot.

CTA Banner


Wie prüfen wir, ob die robots.txt funktioniert?

Drei aufeinander aufbauende Checks zeigen, ob die Konfiguration wirkt. Jeder Schritt deckt einen anderen Fehlertyp auf, von der Syntax über die Crawler-Realität bis zur Sichtbarkeit in den Antworten selbst.

  1. Syntax-Check im Browser. Öffnen Sie ihre-domain.de/robots.txt und prüfen Sie, ob das File ausgeliefert wird, ob die User-Agents korrekt benannt sind und ob die Syntax stimmt. Ein häufiger Fehler ist die Schreibweise, etwa GPT-Bot statt GPTBot. Nur die exakte Bezeichnung wird respektiert.

  2. Server-Log-Analyse. In den Logs erscheinen die User-Agent-Strings der Crawler. Wer GPTBot blockiert hat, sollte nach einigen Tagen sehen, dass GPTBot-Requests ausbleiben, während OAI-SearchBot weiterläuft. Bleibt GPTBot trotz Disallow sichtbar, stimmt entweder die Syntax nicht, oder der Crawler ignoriert die Direktive.

  3. Zitier-Test in den Modellen. Fragen Sie ChatGPT, Claude und Perplexity nach Themen, zu denen Ihre Site ranken sollte. Wer mehrmals hintereinander nicht genannt wird, hat entweder ein Content-Problem oder ein Crawler-Problem. Unsere Anleitung zur GEO-Content-Erstellung hilft bei der ersten Diagnose.


FAQ: Häufig gestellte Fragen

Muss ich eine robots.txt für KI-Crawler haben?
Nein, eine Site ohne robots.txt wird standardmäßig komplett gecrawlt. Die Datei ist nur dann nötig, wenn Sie aktiv Regeln setzen wollen. Wer GEO-Sichtbarkeit anstrebt, braucht keine Spezialkonfiguration für AI-Crawler, weil Standard-Verhalten bereits Crawling erlaubt.

Was passiert, wenn ich GPTBot blockiere?
OpenAI nutzt Ihre Inhalte dann nicht mehr für das Training zukünftiger GPT-Modelle. Die Sichtbarkeit in ChatGPT-Antworten bleibt davon unberührt, solange OAI-SearchBot und ChatGPT-User erlaubt sind. Diese Unterscheidung ist der wichtigste Hebel der gesamten Konfiguration.

Kann ich alle AI-Crawler mit einer einzigen Regel blockieren?
Technisch ja, strategisch meist nein. Ein globales Disallow: / für jeden bekannten AI-User-Agent entfernt Ihre Marke aus allen generativen Antworten. Wer nicht explizit aus ideologischen Gründen blockieren will, sollte zwischen Training und Search differenzieren.

Was ist der Unterschied zwischen ChatGPT-User und GPTBot?
GPTBot crawlt systematisch für Trainingsdaten. ChatGPT-User wird nur aktiv, wenn ein Nutzer innerhalb von ChatGPT gezielt einen Link anfordert. Blockieren Sie GPTBot, verhindern Sie Training. Blockieren Sie ChatGPT-User, verhindern Sie, dass Nutzer Ihre Seite im Chat lesen können.

Reicht robots.txt aus, um AI-Crawler zu stoppen?
Nein. Seriöse Betreiber respektieren die Datei, weniger seriöse nicht. Für verbindliche Blockade brauchen Sie zusätzlich Firewall-Regeln, Bot-Management-Lösungen oder Authentifizierung. Die robots.txt ist die erste Linie, nicht die letzte.

Die Frage was ist robots.txt für KI lässt sich nicht mit einer einzigen Regel beantworten, weil jede Site eine eigene Balance aus Schutz und Sichtbarkeit findet. Wer pauschal blockiert, verliert GEO-Reichweite. Wer alles erlaubt, verzichtet auf Kontrolle über Trainingsnutzung. Wir von rankprompt.de empfehlen einen differenzierten Ansatz mit klarer Trennung zwischen Training und Search, dokumentiert und regelmäßig überprüft. Wer tiefer einsteigen will, findet in unserem Implementation-Guide zur robots.txt für KI-Crawler die konkrete Konfiguration für alle relevanten Bots.

Teile den Blog Post

Teile den Blog Post

Newsletter abonnieren

Newsletter abonnieren

Neueste Artikel