Google-Extended: KI-Trainings-Crawler

Definition: Was ist Google-Extended?

Google-Extended ist ein von Google im September 2023 eingeführtes Kontroll-Token in der robots.txt. Es ist bewusst kein eigener User-Agent, sondern ein Steuerungs-Signal: Google-Extended trennt die Nutzung der gecrawlten Inhalte für das Training von Gemini und zugehörigen Generative-AI-Produkten von der klassischen Verwendung in der Google-Suche. Der Crawler bleibt Googlebot; Google-Extended regelt nur die nachgelagerte Datenverwendung.

Das Ziel: Publishern eine granulare Wahl geben, ohne sie zum binären „Googlebot sperren oder nicht" zu zwingen. Wer Google-Extended auf Disallow setzt, bleibt in Suchrankings und AI-Overviews-Eligibility (siehe unten), blockiert aber die Nutzung der eigenen Inhalte für zukünftige KI-Modell-Trainingsläufe. Das Token ist Googles Antwort auf die Publisher-Debatte, die 2023 rund um GPTBot und die Trainings-Frage entstand.

Kern-Aussage

Google-Extended trennt Training von Search, aber nicht von AI Overviews

Die Sperre blockiert Gemini-Training. Sie blockiert nicht die Verwendung in AI Overviews, die den Live-Search-Index nutzen. Wer aus AI Overviews verschwinden will, müsste Googlebot selbst sperren und damit die Suche verlieren.

Google-Extended vs. Googlebot

Der entscheidende Unterschied liegt in der Funktion, nicht im Crawl-Mechanismus. Googlebot ist der eigentliche Crawler, der Inhalte für den Search-Index abruft. Ein Sperren von Googlebot bedeutet: Die Domain verschwindet aus der Google-Suche. Google-Extended ist kein Crawler, sondern eine Direktive, die Googles interne Datenverwendungs-Pipeline beeinflusst. Die Inhalte werden weiterhin gecrawlt (über Googlebot), aber nicht für KI-Training verwendet.

Operativ bedeutet das: Ein Publisher kann Googlebot zulassen (Search bleibt), Google-Extended sperren (kein Training-Input) und parallel GPTBot entscheiden. Die drei Entscheidungen sind unabhängig. Für Enterprise-Domains ist das die Standard-Matrix im Crawler-Policy-Review.

Syntax und Implementierung

Google-Extended wird als eigener User-agent-Block in robots.txt geführt. Beispiel für vollständige Sperre:

User-agent: Google-Extended
Disallow: /

Für selektive Kontrolle - Blog-Inhalte trainierbar, Member-Bereich gesperrt:

User-agent: Google-Extended
Allow: /blog/
Allow: /glossar/
Disallow: /kunden/
Disallow: /internal/

Die Reihenfolge der Blöcke in robots.txt spielt keine Rolle - Googlebot, Google-Extended und andere User-Agents werden unabhängig ausgewertet. Für vollständige Kontrolle im KI-Zeitalter gehört eine kombinierte Direktive in den Standard-Template:

User-agent: Googlebot
Allow: /

User-agent: Google-Extended
Disallow: /kunden/

User-agent: GPTBot
Disallow: /kunden/

User-agent: CCBot
Disallow: /

Die strategische Trade-off-Frage

Die Entscheidung, Google-Extended zu sperren oder zuzulassen, ist keine technische, sondern eine strategische. Die zwei Positionen:

Sperren: Der Publisher entzieht Google den Trainings-Input. Das schützt Content-Investitionen vor Verwertung ohne direkte Kompensation. Preis: Die eigene Entität und Themen-Expertise fließen nicht in Gemini. Langfristig bedeutet das: weniger Erwähnungen, weniger Zitationen, weniger Share of Model. Für Paywall-Publisher und Lizenz-Strategien ist das akzeptabel - sie monetarisieren über separate Verträge.

Zulassen: Der Publisher akzeptiert Training ohne direkte Monetarisierung. Preis: Content-Investitionen werden indirekt genutzt. Gewinn: Die Marke bleibt sichtbar in Gemini-basierten Antworten, AI Overviews haben zusätzliche Entity-Verankerung, Co-Occurrence mit Themen baut sich auf. Für markenorientierte Publisher und B2B-Fachportale ist das die Standard-Wahl.

Typische Fehler in Google-Extended-Strategien

Verwechslung mit Googlebot. User-agent: Googlebot / Disallow: / im Glauben, das blockiere nur KI-Training. In Wirklichkeit schließt das die Domain aus der Google-Suche komplett aus.
Erwartung, AI Overviews zu blockieren. Google-Extended betrifft Training, nicht Live-Retrieval. AI Overviews nutzen den normalen Search-Index.
Unklare Policy im Unternehmen. Legal, Marketing und Technik haben unterschiedliche Positionen. Das Ergebnis: widersprüchliche Konfigurationen nach jedem Deployment.
Vergessene Ergänzung weiterer KI-Crawler. Google-Extended gesperrt, aber GPTBot, ClaudeBot und PerplexityBot offen. Die Entscheidung wirkt dann nur gegenüber Google.
Keine Dokumentation. Nächstes CMS-Update überschreibt die robots.txt-Direktive. Ohne Security-Review-Protokoll bleibt das unbemerkt.

FAQ zu Google-Extended

Was ist Google-Extended? ▾

Google-Extended ist kein eigener Crawler, sondern ein robots.txt-Token, den Google im September 2023 eingeführt hat. Er erlaubt Publishern, die Nutzung ihrer Inhalte für das Training von Gemini und verwandten KI-Produkten zu kontrollieren - entkoppelt von Googlebot und der klassischen Google-Suche. Crawler-User-Agent bleibt Googlebot.

Wie unterscheidet sich Google-Extended von Googlebot? ▾

Googlebot crawlt für die Google-Suche, der Index füttert Rankings und klassische SERPs. Google-Extended ist ein separates Steuerungs-Token für die Nutzung derselben gecrawlten Daten im KI-Training. Wer Google-Extended sperrt, bleibt in der normalen Suche - schließt aber die eigenen Inhalte aus zukünftigen Gemini-Trainingsläufen aus.

Schließt Google-Extended AI Overviews aus? ▾

Nein - AI Overviews nutzen den Live-Index, nicht die Google-Extended-Trainingsdaten. Eine Sperre von Google-Extended blockiert daher nicht die Einbeziehung in AI Overviews. Wer aus AI Overviews verschwinden will, müsste Googlebot selbst sperren - und damit die komplette Google-Suche verlieren.

Wie setzt man Google-Extended in robots.txt? ▾

Als User-agent-Block: User-agent: Google-Extended / Disallow: /. Die Syntax ist identisch zu anderen Crawlern. Google respektiert die Direktive nach eigener Dokumentation. Die Sperre wirkt nur auf zukünftige KI-Trainings-Läufe, nicht auf bereits erfasste Daten.

Sollte ich Google-Extended sperren? ▾

Der Trade-off ist strategisch. Sperre bedeutet: eigene Inhalte fließen nicht in Gemini-Training ein - die Marke verliert langfristig KI-Sichtbarkeit. Zulassen bedeutet: Training auf eigenen Kosten ohne direkte Monetarisierung. Für Publisher mit starker Marken-Positionierung ist das Zulassen meist die bessere Wahl. Für Paywall-Publisher mit Lizenz-Monetarisierung die Sperre.

Google-Extended

Definition: Was ist Google-Extended?

Google-Extended trennt Training von Search, aber nicht von AI Overviews

Google-Extended vs. Googlebot

Syntax und Implementierung

Die strategische Trade-off-Frage

Typische Fehler in Google-Extended-Strategien

Verwandte Begriffe

FAQ zu Google-Extended

Crawler-Policy für Ihre Domain.

Definition: Was ist Google-Extended?

Google-Extended trennt Training von Search, aber nicht von AI Overviews

Google-Extended vs. Googlebot

Syntax und Implementierung

Die strategische Trade-off-Frage

Typische Fehler in Google-Extended-Strategien

Verwandte Begriffe

FAQ zu Google-Extended

Weiterführende Analysen

Technical SEO im KI-Crawler-Zeitalter - Audit-Framework

Die stille Revolution - AI Overviews & 41% Traffic-Absorption

GEO vs. SEO - Warum Generative Engine Optimization eine neue Disziplin ist

Gemini SEO: Knowledge-Graph und Multi-Modal.

AI Overviews optimieren.

ChatGPT SEO: Bot-Matrix und Passages.

Crawler-Policy für Ihre Domain.