Zurück zum Blog

Was ist Google-Extended? Googles AI-Crawler für Gemini erklärt

Glossar

23.04.2026

Eine SEO-Verantwortliche diskutiert mit ihrem Tech-Team über die robots.txt und stößt auf einen Eintrag, der sich „Google-Extended" nennt und seit 2023 in zahlreichen Vorlagen auftaucht. Manche Agenturen empfehlen die Sperre, andere warnen davor. Die Frage was ist Google-Extended entscheidet, ob die eigene Marke künftig in Gemini-Antworten und in Google AI Overviews als Quelle auftauchen darf oder aus dem KI-Ökosystem von Google verschwindet.

Für Teams, die ihre Inhalte in KI-Antwortsystemen sichtbar halten wollen, ist Google-Extended kein technisches Detail, sondern ein Kontrollsignal mit direkter Wirkung auf die Gemini-Reichweite. Dieser Glossareintrag klärt Definition, Funktionsweise, robots.txt-Konfiguration, die Abgrenzung zu Googlebot und die Rolle, die Google-Extended in einem sauberen GEO-Setup einnimmt.

Was bedeutet Google-Extended genau?

Google-Extended ist ein robots.txt-Steuerungssignal von Google, mit dem Website-Betreiber die Nutzung ihrer Inhalte für das Training von Gemini und anderen Google-KI-Modellen erlauben oder unterbinden können, ohne die klassische Google-Suche zu beeinträchtigen. Google hat das Signal am 28. September 2023 eingeführt, als Reaktion auf Kritik von Verlagen und Rechteinhabern (Google Developer Blog, 2023). Weitere Informationen liefert unser was ist Gemini.

Die offizielle Dokumentation liegt unter developers.google.com und beschreibt Google-Extended ausdrücklich als Kontroll-Token, nicht als eigenständigen Crawler. Deutsche Fachquellen wie Sistrix und Olaf Kopp nutzen den Begriff unverändert, eine deutsche Übersetzung hat sich nicht etabliert (Sistrix, 2026).

Wer Google-Extended blockiert, nimmt seine Marke aus dem Pool, aus dem Gemini später zitiert oder paraphrasiert. Rund zehn Prozent der Top-1000-Websites blockieren Google-Extended bereits per robots.txt (Originality.ai, 2024).

Wie funktioniert Google-Extended technisch?

Google-Extended folgt einer von Googlebot getrennten Logik, die beim Indexieren und beim KI-Nutzen zwei verschiedene Entscheidungen zulässt. Genau diese Trennung ist der Grund, warum Google das Signal überhaupt eingeführt hat. Mehr dazu in unserem was ist ChatGPT Search.

Signal statt Crawler

Googlebot lädt Seiten für die klassische Suche. Google-Extended wirkt auf dieselben Inhalte, entscheidet aber nur über die Weiterverwendung in Gemini-Training, Vertex AI und verwandten KI-Produkten. Eine Disallow-Regel für Google-Extended entfernt Inhalte aus Gemini, lässt die Google-Suche aber vollständig unberührt (Google Developer Blog, 2023).

Reichweite des Signals

Google AI Overviews sind ein Sonderfall. Sie nutzen eigene Retrieval-Prozesse, die stark an Googlebot-Signale gekoppelt sind. Eine Blockade von Google-Extended reduziert den Einfluss auf Gemini-Training, stoppt AI Overviews aber nicht automatisch (Google Developer Blog, 2024).

Was sammelt Google-Extended für das Gemini-Training?

Google-Extended regelt den Zugriff auf alle öffentlich abrufbaren Inhalte, die ohnehin für die klassische Google-Suche indexiert werden. Die folgende Übersicht zeigt, welche Inhaltstypen besonders gewichtet werden.

Textinhalte. Blogartikel, Produktbeschreibungen, Glossare und Ratgeber fließen vollständig in die Verwertung ein, sofern Google-Extended nicht blockiert ist.
Strukturierte Daten. FAQ-Markup, How-to-Schemata, Produkt- und Organisations-Schemata liefern Gemini klare Entity-Signale und werden überdurchschnittlich oft zitiert.
Dokumentationen und Hilfe-Bereiche. Technische Dokus, API-Referenzen und Support-Artikel gehören zu den am häufigsten paraphrasierten Inhalten in Gemini-Antworten.
Presse- und Autorenseiten. About-Pages, Autorenprofile und Pressemitteilungen stärken das Entity-Verständnis einer Marke im Google-KI-Ökosystem.

Nicht betroffen sind durch Login oder Paywall geschützte Bereiche sowie Inhalte mit No-Index-Meta-Tag.

Wie blockiert oder erlaubt man Google-Extended in der robots.txt?

Google-Extended wird wie jeder andere Crawler-Eintrag über die robots.txt gesteuert, die Syntax ist identisch mit der für Googlebot, GPTBot oder ClaudeBot. Die folgenden Schritte zeigen, wie sich der Zugriff sauber konfigurieren lässt.

robots.txt im Domain-Root öffnen. Die Datei liegt unter example.com/robots.txt und sollte bei jeder Änderung versioniert werden.
Expliziten Block für Google-Extended ergänzen. Mit „User-agent: Google-Extended" gefolgt von „Disallow: /" wird die KI-Nutzung für Gemini und Vertex AI ausgeschlossen, ohne dass die klassische Suche betroffen ist.
Vollständige Freigabe prüfen. Kein Eintrag oder ein explizites „Allow: /" erlaubt die KI-Nutzung. Für GEO-orientierte Marken ist das der empfohlene Default.
Googlebot unberührt lassen. Google-Extended und Googlebot sind zwei getrennte Regeln. Wer beides gemeinsam sperrt, verliert Indexierung und KI-Sichtbarkeit gleichzeitig.
Änderung testen. Google übernimmt robots.txt-Änderungen innerhalb weniger Stunden bis Tage, die Wirkung lässt sich über Search-Console- und GA4-Signale beobachten.

Für GEO-orientierte Marken lautet die Empfehlung klar zulassen. Google betreibt mit AI Overviews eine Antwortfläche in über einhundert Ländern und erreicht mehr als zwei Milliarden Nutzer monatlich (Google I/O, 2025).

Wie grenzt sich Google-Extended von anderen KI-Crawlern ab?

Google-Extended nimmt im KI-Crawler-Universum eine Sonderrolle ein, weil es kein eigener Bot ist, sondern ein Kontroll-Token. Die folgende Tabelle fasst die wichtigsten Unterschiede zu den großen KI-Crawlern zusammen.

Signal bzw. Crawler	Anbieter	Typ	Hauptzweck
Google-Extended	Google	Kontroll-Token	Steuerung der KI-Nutzung für Gemini und Vertex AI
Googlebot	Google	Crawler	Indexierung für die klassische Google-Suche
GPTBot	OpenAI	Crawler	Training der GPT-Modelle
ClaudeBot/1.0	Anthropic	Crawler	Training der Claude-Modelle
PerplexityBot/1.0	Perplexity AI	Crawler	Index-Aufbau für generative Antworten

Der zentrale Unterschied liegt in der Architektur. GPTBot, ClaudeBot und PerplexityBot sind echte Crawler mit eigenen User-Agents und eigenen IP-Ranges. Mehr dazu in unserem Glossareintrag zu GPTBot, unserem Glossareintrag zu ClaudeBot und unserem Glossareintrag zu PerplexityBot.

Google-Extended funktioniert anders. Es gibt keine separaten Requests, keine eigenen IP-Ranges und keinen eigenen Bot, der Logs füllt. Das Signal wird bei Googlebot-Crawls ausgewertet und entscheidet über die nachgelagerte Verwendung in Gemini. Diese Eigenheit macht die robots.txt-Regel besonders sauber, weil sie keine Last auf dem Server erzeugt.

Warum ist Google-Extended für GEO relevant?

Google-Extended ist die Eingangstür zum Gemini-Ökosystem und damit zu einer der reichweitenstärksten KI-Antwortflächen der Welt. Gemini wurde im Dezember 2023 als direkter Nachfolger von Bard gelauncht und ist seitdem in Google Search, Workspace, Android und Cloud-Produkten tief integriert (Google, 2023).

Training prägt das Entity-Verständnis. Gemini entwickelt sein Bild einer Marke maßgeblich aus Trainingsdaten, die über Google-Extended-Freigaben fließen. Wer das Signal blockiert, fehlt in diesem Weltbild, selbst wenn die eigene Website in der klassischen Suche hervorragend rankt. Die Grundlagen dazu vertieft unser Glossareintrag zu LLMO.

AI Mode verschiebt das Spielfeld. Der 2025 gestartete AI Mode nutzt Query Fan-Out und erzeugt pro Anfrage mehrere parallele Sub-Queries, aus deren Antworten Gemini ein konsolidiertes Ergebnis baut. Marken, die Google-Extended blockieren, fallen in dieser Auswahl systematisch aus. Wie sich Sichtbarkeitspfade strukturieren lassen, beschreibt unsere GEO-Audit-Checkliste.

Blockaden sind häufig Altlasten. Viele robots.txt-Dateien wurden Ende 2023 pauschal um Google-Extended erweitert, oft als Reflex auf urheberrechtliche Debatten. Diese Einträge wirken bis heute und schneiden Marken stumm aus dem Gemini-Ökosystem. Eine jährliche Prüfung der robots.txt ist daher fester Bestandteil jedes sauberen GEO-Audits.

Gängige Irrtümer über Google-Extended

Irrtum 1: Google-Extended ist ein eigener Crawler. Falsch. Es gibt keinen separaten Bot, der sich als Google-Extended identifiziert. Das Signal wird bei regulären Googlebot-Crawls ausgewertet und entscheidet über die KI-Nutzung der gecrawlten Inhalte. Wer in den Server-Logs nach Google-Extended-Requests sucht, wird keine finden.

Irrtum 2: Ein Block von Google-Extended schadet der klassischen Google-Suche. Falsch. Google hat das Signal genau deshalb eingeführt, um beide Entscheidungen zu trennen. Eine Disallow-Regel für Google-Extended entfernt die Inhalte aus der Gemini-Trainingsbasis, lässt die Indexierung durch Googlebot aber unberührt (Google Developer Blog, 2023).

Irrtum 3: Wer Google-Extended blockiert, schützt sich urheberrechtlich. Falsch. Die robots.txt ist ein freiwilliger Standard, kein Rechtsinstrument. Sie signalisiert Google einen Wunsch und Google hält sich daran, ersetzt aber weder Lizenzverträge noch konkrete juristische Schritte gegenüber anderen Anbietern. Der echte Schutz sensibler Inhalte läuft über Paywalls, Authentifizierung und technische Zugriffsbeschränkungen.

Irrtum 4: Google-Extended und das No-AI-Meta-Tag sind dasselbe. Falsch. Das Meta-Tag „noai" ist eine Signalidee aus dem weiteren Ökosystem, die weder Google-Standard noch weitflächig unterstützt ist. Google-Extended ist dagegen offiziell dokumentiert, von Google aktiv ausgewertet und der einzige saubere Weg, Gemini-Training auf Domain-Ebene zu steuern.

FAQ: Häufig gestellte Fragen

Was ist Google-Extended in einem Satz?

Google-Extended ist ein robots.txt-Kontrollsignal von Google, mit dem Betreiber die Nutzung ihrer Inhalte für Gemini-Training und Vertex AI steuern, ohne die klassische Google-Suche zu beeinflussen (Google Developer Blog, 2023).

Ist Google-Extended ein eigener Crawler?

Nein. Google-Extended ist kein separater Bot mit eigenem User-Agent, sondern ein Opt-out-Token, das bei regulären Googlebot-Crawls ausgewertet wird und über die nachgelagerte KI-Verwendung entscheidet.

Wie blockiere ich Google-Extended?

In der robots.txt mit dem Eintrag „User-agent: Google-Extended" gefolgt von „Disallow: /". Die Anweisung greift innerhalb weniger Tage, entfernt die Seite aber aus der Gemini-Trainingsgrundlage und reduziert die Sichtbarkeit in KI-Antworten von Google.

Sollte ich Google-Extended blockieren oder zulassen?

Für GEO-orientierte Marken lautet die Empfehlung klar zulassen. Rund zehn Prozent der Top-1000-Websites blockieren Google-Extended, womit der Wettbewerb um die verbliebenen Gemini-Zitationsplätze reduziert ist (Originality.ai, 2024).

Wirkt Google-Extended auch auf Google AI Overviews?

Teilweise. Google-Extended steuert primär Gemini-Training und Vertex AI. AI Overviews nutzen eigene Retrieval-Prozesse, die stark an Googlebot-Signale gekoppelt sind, profitieren aber indirekt vom Entity-Wissen aus der Gemini-Trainingsgrundlage (Google Developer Blog, 2024).

---

Die Frage was ist Google-Extended lässt sich in einem Satz beantworten, ein robots.txt-Kontrollsignal von Google, das die Nutzung eigener Inhalte für Gemini-Training steuert, ohne die klassische Suche zu beeinflussen. Für Marken heißt das, Google-Extended als bewusste GEO-Entscheidung zu behandeln, Altlasten aus pauschalen Blockaden zu prüfen und die Reichweite in Gemini und AI Overviews als aktive Sichtbarkeitsquelle ernst zu nehmen. Wir bei rankprompt.de analysieren in Kundenprojekten robots.txt-Setups, Entity-Signale und Crawler-Zugriffe und übersetzen die Ergebnisse in konkrete Hebel für Sichtbarkeit in ChatGPT, Claude, Perplexity und Gemini. Der schnellste Einstieg führt über unsere GEO-Audit-Checkliste.

Teile den Blog Post

Newsletter abonnieren

Neueste Artikel

GEO

GEO-Benchmark 2026: Wie sichtbar sind deutsche Marken in KI-Antworten?

11.06.2026

GEO

Schema-Markup mit Claude Code automatisch generieren und validieren

09.06.2026