Definition: Was ist Google-Extended?
Google-Extended ist ein von Google im September 2023 eingeführtes Kontroll-Token in der robots.txt. Es ist bewusst kein eigener User-Agent, sondern ein semantisches Steuerungs-Signal: Google-Extended entkoppelt die Nutzung der gecrawlten Inhalte für das Training von Gemini und zugehörigen Generative-AI-Produkten von der klassischen Verwendung in der Google-Suche. Der Crawler bleibt Googlebot; Google-Extended regelt nur die nachgelagerte Datenverwendung.
Das Ziel: Publishern eine granulare Wahl geben, ohne sie zum binären „Googlebot sperren oder nicht" zu zwingen. Wer Google-Extended auf Disallow setzt, bleibt in Suchrankings und AI-Overviews-Eligibility (siehe unten) — blockiert aber die Nutzung der eigenen Inhalte für zukünftige KI-Modell-Trainingsläufe. Das Token ist Googles Antwort auf die Publisher-Debatte, die 2023 rund um GPTBot und die Trainings-Frage entstand.
Google-Extended trennt Training von Search — aber nicht von AI Overviews
Die Sperre blockiert Gemini-Training. Sie blockiert nicht die Verwendung in AI Overviews, die den Live-Search-Index nutzen. Wer aus AI Overviews verschwinden will, müsste Googlebot selbst sperren — und damit die Suche verlieren.
Google-Extended vs. Googlebot
Der entscheidende Unterschied liegt in der Funktion, nicht im Crawl-Mechanismus. Googlebot ist der eigentliche Crawler, der Inhalte für den Search-Index abruft. Ein Sperren von Googlebot bedeutet: Die Domain verschwindet aus der Google-Suche. Google-Extended ist kein Crawler; es ist eine Direktive, die Googles interne Datenverwendungs-Pipeline beeinflusst. Die Inhalte werden weiterhin gecrawlt (über Googlebot), aber nicht für KI-Training verwendet.
Operativ bedeutet das: Ein Publisher kann Googlebot zulassen (Search bleibt), Google-Extended sperren (kein Training-Input) und parallel GPTBot entscheiden. Die drei Entscheidungen sind unabhängig. Für Enterprise-Domains ist das die Standard-Matrix im Crawler-Policy-Review.
Syntax und Implementierung
Google-Extended wird als eigener User-agent-Block in robots.txt geführt. Beispiel für vollständige Sperre:
User-agent: Google-Extended Disallow: /
Für selektive Kontrolle — Blog-Inhalte trainierbar, Member-Bereich gesperrt:
User-agent: Google-Extended Allow: /blog/ Allow: /glossar/ Disallow: /kunden/ Disallow: /internal/
Die Reihenfolge der Blöcke in robots.txt spielt keine Rolle — Googlebot, Google-Extended und andere User-Agents werden unabhängig ausgewertet. Für vollständige Kontrolle im KI-Zeitalter gehört eine kombinierte Direktive in den Standard-Template:
User-agent: Googlebot Allow: / User-agent: Google-Extended Disallow: /kunden/ User-agent: GPTBot Disallow: /kunden/ User-agent: CCBot Disallow: /
Die strategische Trade-off-Frage
Die Entscheidung, Google-Extended zu sperren oder zuzulassen, ist keine technische, sondern eine strategische. Die zwei Positionen:
Sperren: Der Publisher entzieht Google den Trainings-Input. Das schützt Content-Investitionen vor Verwertung ohne direkte Kompensation. Preis: Die eigene Entität und Themen-Expertise fließen nicht in Gemini. Langfristig bedeutet das: weniger Erwähnungen, weniger Zitationen, weniger Share of Model. Für Paywall-Publisher und Lizenz-Strategien ist das akzeptabel — sie monetarisieren über separate Verträge.
Zulassen: Der Publisher akzeptiert Training ohne direkte Monetarisierung. Preis: Content-Investitionen werden indirekt genutzt. Gewinn: Die Marke bleibt sichtbar in Gemini-basierten Antworten, AI Overviews haben zusätzliche Entity-Verankerung, Co-Occurrence mit Themen baut sich auf. Für markenorientierte Publisher und B2B-Fachportale ist das die Standard-Wahl.
Typische Fehler in Google-Extended-Strategien
- Verwechslung mit Googlebot.
User-agent: Googlebot / Disallow: /im Glauben, das blockiere nur KI-Training. In Wirklichkeit schließt das die Domain aus der Google-Suche komplett aus. - Erwartung, AI Overviews zu blockieren. Google-Extended betrifft Training, nicht Live-Retrieval. AI Overviews nutzen den normalen Search-Index.
- Unklare Policy im Unternehmen. Legal, Marketing und Technik haben unterschiedliche Positionen. Das Ergebnis: widersprüchliche Konfigurationen nach jedem Deployment.
- Vergessene Ergänzung weiterer KI-Crawler. Google-Extended gesperrt, aber GPTBot, ClaudeBot und PerplexityBot offen. Die Entscheidung wirkt dann nur gegenüber Google.
- Keine Dokumentation. Nächstes CMS-Update überschreibt die robots.txt-Direktive. Ohne Security-Review-Protokoll bleibt das unbemerkt.
Verwandte Begriffe
Google-Extended gehört in die Reihe der KI-Crawler- und Training-Kontrollen: GPTBot, ClaudeBot, CCBot, PerplexityBot. Technisch wird es über robots.txt gesteuert, redaktionell ergänzt durch llms.txt. Für die Einbeziehung in AI Overviews ist der Unterschied zu Googlebot entscheidend.
FAQ zu Google-Extended
Was ist Google-Extended? ▾
Google-Extended ist kein eigener Crawler, sondern ein robots.txt-Token, den Google im September 2023 eingeführt hat. Er erlaubt Publishern, die Nutzung ihrer Inhalte für das Training von Gemini und verwandten KI-Produkten zu kontrollieren — entkoppelt von Googlebot und der klassischen Google-Suche. Crawler-User-Agent bleibt Googlebot.
Wie unterscheidet sich Google-Extended von Googlebot? ▾
Googlebot crawlt für die Google-Suche, der Index füttert Rankings und klassische SERPs. Google-Extended ist ein separates Steuerungs-Token für die Nutzung derselben gecrawlten Daten im KI-Training. Wer Google-Extended sperrt, bleibt in der normalen Suche — schließt aber die eigenen Inhalte aus zukünftigen Gemini-Trainingsläufen aus.
Schließt Google-Extended AI Overviews aus? ▾
Nein — AI Overviews nutzen den Live-Index, nicht die Google-Extended-Trainingsdaten. Eine Sperre von Google-Extended blockiert daher nicht die Einbeziehung in AI Overviews. Wer aus AI Overviews verschwinden will, müsste Googlebot selbst sperren — und damit die komplette Google-Suche verlieren.
Wie setzt man Google-Extended in robots.txt? ▾
Als User-agent-Block: User-agent: Google-Extended / Disallow: /. Die Syntax ist identisch zu anderen Crawlern. Google respektiert die Direktive nach eigener Dokumentation. Die Sperre wirkt nur auf zukünftige KI-Trainings-Läufe, nicht auf bereits erfasste Daten.
Sollte ich Google-Extended sperren? ▾
Der Trade-off ist strategisch. Sperre bedeutet: eigene Inhalte fließen nicht in Gemini-Training ein — die Marke verliert langfristig KI-Sichtbarkeit. Zulassen bedeutet: Training auf eigenen Kosten ohne direkte Monetarisierung. Für Publisher mit starker Marken-Positionierung ist das Zulassen meist die bessere Wahl. Für Paywall-Publisher mit Lizenz-Monetarisierung die Sperre.