Definition: Was ist Google-Extended?

Google-Extended ist ein von Google im September 2023 eingeführtes Kontroll-Token in der robots.txt. Es ist bewusst kein eigener User-Agent, sondern ein semantisches Steuerungs-Signal: Google-Extended entkoppelt die Nutzung der gecrawlten Inhalte für das Training von Gemini und zugehörigen Generative-AI-Produkten von der klassischen Verwendung in der Google-Suche. Der Crawler bleibt Googlebot; Google-Extended regelt nur die nachgelagerte Datenverwendung.

Das Ziel: Publishern eine granulare Wahl geben, ohne sie zum binären „Googlebot sperren oder nicht" zu zwingen. Wer Google-Extended auf Disallow setzt, bleibt in Suchrankings und AI-Overviews-Eligibility (siehe unten) — blockiert aber die Nutzung der eigenen Inhalte für zukünftige KI-Modell-Trainingsläufe. Das Token ist Googles Antwort auf die Publisher-Debatte, die 2023 rund um GPTBot und die Trainings-Frage entstand.

Kern-Aussage

Google-Extended trennt Training von Search — aber nicht von AI Overviews

Die Sperre blockiert Gemini-Training. Sie blockiert nicht die Verwendung in AI Overviews, die den Live-Search-Index nutzen. Wer aus AI Overviews verschwinden will, müsste Googlebot selbst sperren — und damit die Suche verlieren.

Google-Extended vs. Googlebot

Der entscheidende Unterschied liegt in der Funktion, nicht im Crawl-Mechanismus. Googlebot ist der eigentliche Crawler, der Inhalte für den Search-Index abruft. Ein Sperren von Googlebot bedeutet: Die Domain verschwindet aus der Google-Suche. Google-Extended ist kein Crawler; es ist eine Direktive, die Googles interne Datenverwendungs-Pipeline beeinflusst. Die Inhalte werden weiterhin gecrawlt (über Googlebot), aber nicht für KI-Training verwendet.

Operativ bedeutet das: Ein Publisher kann Googlebot zulassen (Search bleibt), Google-Extended sperren (kein Training-Input) und parallel GPTBot entscheiden. Die drei Entscheidungen sind unabhängig. Für Enterprise-Domains ist das die Standard-Matrix im Crawler-Policy-Review.

Syntax und Implementierung

Google-Extended wird als eigener User-agent-Block in robots.txt geführt. Beispiel für vollständige Sperre:

User-agent: Google-Extended
Disallow: /

Für selektive Kontrolle — Blog-Inhalte trainierbar, Member-Bereich gesperrt:

User-agent: Google-Extended
Allow: /blog/
Allow: /glossar/
Disallow: /kunden/
Disallow: /internal/

Die Reihenfolge der Blöcke in robots.txt spielt keine Rolle — Googlebot, Google-Extended und andere User-Agents werden unabhängig ausgewertet. Für vollständige Kontrolle im KI-Zeitalter gehört eine kombinierte Direktive in den Standard-Template:

User-agent: Googlebot
Allow: /

User-agent: Google-Extended
Disallow: /kunden/

User-agent: GPTBot
Disallow: /kunden/

User-agent: CCBot
Disallow: /

Die strategische Trade-off-Frage

Die Entscheidung, Google-Extended zu sperren oder zuzulassen, ist keine technische, sondern eine strategische. Die zwei Positionen:

Sperren: Der Publisher entzieht Google den Trainings-Input. Das schützt Content-Investitionen vor Verwertung ohne direkte Kompensation. Preis: Die eigene Entität und Themen-Expertise fließen nicht in Gemini. Langfristig bedeutet das: weniger Erwähnungen, weniger Zitationen, weniger Share of Model. Für Paywall-Publisher und Lizenz-Strategien ist das akzeptabel — sie monetarisieren über separate Verträge.

Zulassen: Der Publisher akzeptiert Training ohne direkte Monetarisierung. Preis: Content-Investitionen werden indirekt genutzt. Gewinn: Die Marke bleibt sichtbar in Gemini-basierten Antworten, AI Overviews haben zusätzliche Entity-Verankerung, Co-Occurrence mit Themen baut sich auf. Für markenorientierte Publisher und B2B-Fachportale ist das die Standard-Wahl.

Typische Fehler in Google-Extended-Strategien

Verwandte Begriffe

Google-Extended gehört in die Reihe der KI-Crawler- und Training-Kontrollen: GPTBot, ClaudeBot, CCBot, PerplexityBot. Technisch wird es über robots.txt gesteuert, redaktionell ergänzt durch llms.txt. Für die Einbeziehung in AI Overviews ist der Unterschied zu Googlebot entscheidend.


FAQ zu Google-Extended

Was ist Google-Extended?

Google-Extended ist kein eigener Crawler, sondern ein robots.txt-Token, den Google im September 2023 eingeführt hat. Er erlaubt Publishern, die Nutzung ihrer Inhalte für das Training von Gemini und verwandten KI-Produkten zu kontrollieren — entkoppelt von Googlebot und der klassischen Google-Suche. Crawler-User-Agent bleibt Googlebot.

Wie unterscheidet sich Google-Extended von Googlebot?

Googlebot crawlt für die Google-Suche, der Index füttert Rankings und klassische SERPs. Google-Extended ist ein separates Steuerungs-Token für die Nutzung derselben gecrawlten Daten im KI-Training. Wer Google-Extended sperrt, bleibt in der normalen Suche — schließt aber die eigenen Inhalte aus zukünftigen Gemini-Trainingsläufen aus.

Schließt Google-Extended AI Overviews aus?

Nein — AI Overviews nutzen den Live-Index, nicht die Google-Extended-Trainingsdaten. Eine Sperre von Google-Extended blockiert daher nicht die Einbeziehung in AI Overviews. Wer aus AI Overviews verschwinden will, müsste Googlebot selbst sperren — und damit die komplette Google-Suche verlieren.

Wie setzt man Google-Extended in robots.txt?

Als User-agent-Block: User-agent: Google-Extended / Disallow: /. Die Syntax ist identisch zu anderen Crawlern. Google respektiert die Direktive nach eigener Dokumentation. Die Sperre wirkt nur auf zukünftige KI-Trainings-Läufe, nicht auf bereits erfasste Daten.

Sollte ich Google-Extended sperren?

Der Trade-off ist strategisch. Sperre bedeutet: eigene Inhalte fließen nicht in Gemini-Training ein — die Marke verliert langfristig KI-Sichtbarkeit. Zulassen bedeutet: Training auf eigenen Kosten ohne direkte Monetarisierung. Für Publisher mit starker Marken-Positionierung ist das Zulassen meist die bessere Wahl. Für Paywall-Publisher mit Lizenz-Monetarisierung die Sperre.