GPTBot: OpenAIs Crawler - robots.txt & WAF

Q: Was ist GPTBot?

GPTBot ist der Web-Crawler von OpenAI, eingeführt im August 2023. Er sammelt öffentlich zugängliche Webinhalte als Trainingsmaterial für zukünftige GPT-Modell-Generationen. Der User-Agent lautet 'GPTBot'. Parallel operiert OAI-SearchBot für die ChatGPT-Search-Funktionalität und ChatGPT-User für Live-Abrufe während einer Nutzer-Sitzung.

Q: Wie sperrt man GPTBot aus?

Über einen Eintrag in der robots.txt: User-agent: GPTBot / Disallow: /. OpenAI dokumentiert das offiziell und respektiert die Direktive. Die Sperre wirkt für zukünftiges Crawling; bereits trainierte Modelle behalten den Inhalt. Für vollständige Kontrolle muss zusätzlich OAI-SearchBot und ChatGPT-User adressiert werden.

Q: Was ist das 429-Problem?

Viele Sites blockieren GPTBot unbeabsichtigt über WAF-Regeln oder Rate-Limits, die zu 429 Too Many Requests führen. Der Crawler wird dann als verdächtiger Traffic eingestuft und aussortiert, obwohl robots.txt den Zugriff erlaubt. 2024-2025 war das der häufigste Grund für fehlende ChatGPT-Zitationen trotz offener Crawler-Policy.

Q: Unterscheidet sich GPTBot von OAI-SearchBot?

Ja. GPTBot sammelt Trainingsdaten für Modell-Updates. OAI-SearchBot indexiert für die ChatGPT-Search-Funktionalität - vergleichbar mit einem klassischen Search-Crawler. ChatGPT-User wiederum holt Inhalte live beim Nutzer-Request ab. Alle drei User-Agents müssen separat in robots.txt adressiert werden.

Q: Schadet das Zulassen von GPTBot der eigenen Domain?

In der Regel nein. GPTBot respektiert robots.txt, nutzt ein publiziertes IP-Range (dokumentiert auf platform.openai.com) und erzeugt überschaubare Last. Die Sperre schließt die Domain vollständig aus zukünftigen GPT-Modell-Generationen aus. Für Publisher, die auf LLM-Sichtbarkeit Wert legen, ist das offene Zulassen die Standard-Empfehlung.

Definition: Was ist GPTBot?

GPTBot ist der offizielle Web-Crawler von OpenAI. Er wurde im August 2023 eingeführt und sammelt öffentlich zugängliche Inhalte, die in zukünftige Trainingsläufe der GPT-Modell-Familie einfließen. Der User-Agent lautet schlicht GPTBot, die vollständige User-Agent-Zeichenkette wird auf platform.openai.com/docs/gptbot dokumentiert, ebenso die offiziellen IP-Ranges als JSON-Datei. Durch publizierte IP-Bereiche kann der Crawler zuverlässig von Spoofing-Versuchen unterschieden werden.

Wichtig zur Abgrenzung: GPTBot ist nicht der einzige OpenAI-User-Agent. Für die ChatGPT-Search-Funktion operiert OAI-SearchBot, für Live-Abrufe während einer Nutzer-Session ChatGPT-User. Die drei User-Agents haben unterschiedliche Zwecke und müssen in robots.txt separat adressiert werden. Wer „GPTBot" sperrt, sperrt nicht automatisch die ChatGPT-Suche - ein häufiges Missverständnis in Enterprise-Policies.

Kern-Aussage

Das häufigste Blockade-Problem ist nicht robots.txt, sondern die WAF

Viele Domains erlauben GPTBot in robots.txt - blockieren ihn aber via Cloudflare-, Akamai- oder AWS-WAF mit 429-Rate-Limits. Die Folge: unerwünschte Unsichtbarkeit in ChatGPT trotz offener Crawler-Policy.

Steuerung über robots.txt

Die primäre Steuerung erfolgt über die robots.txt-Datei im Website-Root. Die Basis-Syntax für vollständige Sperre:

User-agent: GPTBot
Disallow: /

Für selektive Kontrolle - etwa nur das Blog öffnen, den Mitgliederbereich sperren:

User-agent: GPTBot
Allow: /blog/
Disallow: /

Für das Zulassen mit feinkörniger Steuerung mehrerer OpenAI-User-Agents:

User-agent: GPTBot
Disallow: /internal/
Disallow: /kunden/

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

OpenAI respektiert die robots.txt-Direktive nach eigener Dokumentation konsistent. Unabhängige Traffic-Analysen bestätigen das seit 2023 verlässlich - Abweichungen sind nicht dokumentiert.

Das 429-Problem: WAF-Blockaden trotz offener robots.txt

In der Praxis scheitert GPTBot auf vielen Domains nicht an robots.txt, sondern an der Web Application Firewall. Cloudflare, Akamai, AWS WAF, Imperva und Fastly haben Default-Regeln, die Bot-Traffic aus unbekannten User-Agents aggressiv raten-limitieren oder mit Challenge-Prompts beantworten. GPTBot kann CAPTCHAs nicht lösen und erhält in der Folge HTTP 429 Too Many Requests oder 403 Forbidden - obwohl die robots.txt-Direktive ihn explizit zulässt.

Das Muster ist verbreitet. Nach Cloudflare-Daten aus 2024 lag der Anteil der Domains, die GPTBot via WAF blockieren, ohne ihn in robots.txt zu sperren, im zweistelligen Prozentbereich. Für Publisher, die auf LLM-Sichtbarkeit Wert legen, ist das ein operatives Problem: Der Crawler wird als aggressiv eingestuft, Content bleibt untrainiert, die Marke verschwindet aus zukünftigen ChatGPT-Antworten.

Praxis: WAF-Policy für GPTBot

Verifikation. Offizielle IP-Range aus OpenAIs JSON-Liste (openai.com/gptbot-ranges.json) ziehen und als vertrauenswürdig markieren.
Rate-Limits anheben. Für verifizierte GPTBot-IPs mindestens 100 Requests/Minute erlauben.
Challenges deaktivieren. Für GPTBot-IPs keine JavaScript- oder CAPTCHA-Challenges. Der Crawler rendert kein JavaScript.
Logging. Separate Log-Kategorie für GPTBot-Traffic. Monatlicher Check auf 4xx/5xx-Response-Raten. Ziel: < 2 Prozent 429/403.
Dokumentation. Die WAF-Ausnahme in der Security-Policy dokumentieren, damit sie nicht bei Routine-Updates gelöscht wird.

Parallel ist zu entscheiden, welche Bereiche via robots.txt gesperrt bleiben: Mitgliederbereiche, interne Tools, Kunden-Dashboards. Der öffentliche Content - Blog, Glossar, Produkt-Seiten, Pressebereich - gehört typischerweise in die zugelassene Zone.

Typische Fehler in GPTBot-Strategien

Blanke Sperre aus Unsicherheit. User-agent: * / Disallow: / im Glauben, das schließe nur „AI aus". In Wirklichkeit sperrt das auch Google und alle seriösen Crawler. Häufiger Fehler in CMS-Default-Konfigurationen.
WAF-Blockade nicht erkannt. robots.txt ist offen, aber die Logs zeigen hunderte 429 von GPTBot. Ohne separates WAF-Monitoring bleibt das Problem unsichtbar.
Verwechslung der User-Agents. Nur GPTBot gesperrt, aber OAI-SearchBot und ChatGPT-User vergessen. Ergebnis: Modell-Training blockiert, Live-Suche weiterhin offen.
Keine IP-Verifikation. Requests mit User-Agent „GPTBot" werden pauschal zugelassen. Spoofer missbrauchen das für ungeschützte Scraper-Zugriffe. Nur IPs aus der OpenAI-JSON-Liste vertrauen.
Undokumentierte Policy. Security-Team stellt in der nächsten WAF-Routine alles zurück auf Default. GPTBot wird erneut blockiert.

FAQ zu GPTBot

Was ist GPTBot? ▾

GPTBot ist der Web-Crawler von OpenAI, eingeführt im August 2023. Er sammelt öffentlich zugängliche Webinhalte als Trainingsmaterial für zukünftige GPT-Modell-Generationen. Der User-Agent lautet 'GPTBot'. Parallel operiert OAI-SearchBot für die ChatGPT-Search-Funktionalität und ChatGPT-User für Live-Abrufe während einer Nutzer-Sitzung.

Wie sperrt man GPTBot aus? ▾

Über einen Eintrag in der robots.txt: User-agent: GPTBot / Disallow: /. OpenAI dokumentiert das offiziell und respektiert die Direktive. Die Sperre wirkt für zukünftiges Crawling; bereits trainierte Modelle behalten den Inhalt. Für vollständige Kontrolle muss zusätzlich OAI-SearchBot und ChatGPT-User adressiert werden.

Was ist das 429-Problem? ▾

Viele Sites blockieren GPTBot unbeabsichtigt über WAF-Regeln oder Rate-Limits, die zu 429 Too Many Requests führen. Der Crawler wird dann als verdächtiger Traffic eingestuft und aussortiert, obwohl robots.txt den Zugriff erlaubt. 2024-2025 war das der häufigste Grund für fehlende ChatGPT-Zitationen trotz offener Crawler-Policy.

Unterscheidet sich GPTBot von OAI-SearchBot? ▾

Ja. GPTBot sammelt Trainingsdaten für Modell-Updates. OAI-SearchBot indexiert für die ChatGPT-Search-Funktionalität - vergleichbar mit einem klassischen Search-Crawler. ChatGPT-User wiederum holt Inhalte live beim Nutzer-Request ab. Alle drei User-Agents müssen separat in robots.txt adressiert werden.

Schadet das Zulassen von GPTBot der eigenen Domain? ▾

In der Regel nein. GPTBot respektiert robots.txt, nutzt ein publiziertes IP-Range (dokumentiert auf platform.openai.com) und erzeugt überschaubare Last. Die Sperre schließt die Domain vollständig aus zukünftigen GPT-Modell-Generationen aus. Für Publisher, die auf LLM-Sichtbarkeit Wert legen, ist das offene Zulassen die Standard-Empfehlung.

GPTBot

Definition: Was ist GPTBot?

Das häufigste Blockade-Problem ist nicht robots.txt, sondern die WAF

Steuerung über robots.txt

Das 429-Problem: WAF-Blockaden trotz offener robots.txt

Praxis: WAF-Policy für GPTBot

Typische Fehler in GPTBot-Strategien

Verwandte Begriffe

FAQ zu GPTBot

Crawler-Audit für Ihre Domain.

Definition: Was ist GPTBot?

Das häufigste Blockade-Problem ist nicht robots.txt, sondern die WAF

Steuerung über robots.txt

Das 429-Problem: WAF-Blockaden trotz offener robots.txt

Praxis: WAF-Policy für GPTBot

Typische Fehler in GPTBot-Strategien

Verwandte Begriffe

FAQ zu GPTBot

Weiterführende Analysen

Technical SEO im KI-Crawler-Zeitalter - Audit-Framework

Die stille Revolution - AI Overviews & 41% Traffic-Absorption

Prompt-Level SEO - Das Playbook für ChatGPT-Citations

ChatGPT SEO: Vollständige Bot-Matrix.

Bing Copilot SEO: IndexNow und Bing-Index.

Claude Citation: ClaudeBot-Strategie.

Crawler-Audit für Ihre Domain.