Definition: Was ist GPTBot?

GPTBot ist der offizielle Web-Crawler von OpenAI. Er wurde im August 2023 eingeführt und sammelt öffentlich zugängliche Inhalte, die in zukünftige Trainingsläufe der GPT-Modell-Familie einfließen. Der User-Agent lautet schlicht GPTBot, die vollständige User-Agent-Zeichenkette wird auf platform.openai.com/docs/gptbot dokumentiert, ebenso die offiziellen IP-Ranges als JSON-Datei. Durch publizierte IP-Bereiche kann der Crawler zuverlässig von Spoofing-Versuchen unterschieden werden.

Wichtig zur Abgrenzung: GPTBot ist nicht der einzige OpenAI-User-Agent. Für die ChatGPT-Search-Funktion operiert OAI-SearchBot, für Live-Abrufe während einer Nutzer-Session ChatGPT-User. Die drei User-Agents haben unterschiedliche Zwecke und müssen in robots.txt separat adressiert werden. Wer „GPTBot" sperrt, sperrt nicht automatisch die ChatGPT-Suche — ein häufiges Missverständnis in Enterprise-Policies.

Kern-Aussage

Das häufigste Blockade-Problem ist nicht robots.txt, sondern die WAF

Viele Domains erlauben GPTBot in robots.txt — blockieren ihn aber via Cloudflare-, Akamai- oder AWS-WAF mit 429-Rate-Limits. Die Folge: unerwünschte Unsichtbarkeit in ChatGPT trotz offener Crawler-Policy.

Steuerung über robots.txt

Die primäre Steuerung erfolgt über die robots.txt-Datei im Website-Root. Die Basis-Syntax für vollständige Sperre:

User-agent: GPTBot
Disallow: /

Für selektive Kontrolle — etwa nur das Blog öffnen, den Mitgliederbereich sperren:

User-agent: GPTBot
Allow: /blog/
Disallow: /

Für das Zulassen mit feinkörniger Steuerung mehrerer OpenAI-User-Agents:

User-agent: GPTBot
Disallow: /internal/
Disallow: /kunden/

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

OpenAI respektiert die robots.txt-Direktive nach eigener Dokumentation konsistent. Unabhängige Traffic-Analysen bestätigen das seit 2023 verlässlich — Abweichungen sind nicht dokumentiert.

Das 429-Problem: WAF-Blockaden trotz offener robots.txt

In der Praxis scheitert GPTBot auf vielen Domains nicht an robots.txt, sondern an der Web Application Firewall. Cloudflare, Akamai, AWS WAF, Imperva und Fastly haben Default-Regeln, die Bot-Traffic aus unbekannten User-Agents aggressiv raten-limitieren oder mit Challenge-Prompts beantworten. GPTBot kann CAPTCHAs nicht lösen und erhält in der Folge HTTP 429 Too Many Requests oder 403 Forbidden — obwohl die robots.txt-Direktive ihn explizit zulässt.

Das Muster ist verbreitet. Nach Cloudflare-Daten aus 2024 lag der Anteil der Domains, die GPTBot via WAF blockieren, ohne ihn in robots.txt zu sperren, im zweistelligen Prozentbereich. Für Publisher, die auf LLM-Sichtbarkeit Wert legen, ist das ein operatives Problem: Der Crawler wird als aggressiv eingestuft, Content bleibt untrainiert, die Marke verschwindet aus zukünftigen ChatGPT-Antworten.

Praxis: WAF-Policy für GPTBot

  1. Verifikation. Offizielle IP-Range aus OpenAIs JSON-Liste (openai.com/gptbot-ranges.json) ziehen und als vertrauenswürdig markieren.
  2. Rate-Limits anheben. Für verifizierte GPTBot-IPs mindestens 100 Requests/Minute erlauben.
  3. Challenges deaktivieren. Für GPTBot-IPs keine JavaScript- oder CAPTCHA-Challenges. Der Crawler rendert kein JavaScript.
  4. Logging. Separate Log-Kategorie für GPTBot-Traffic. Monatlicher Check auf 4xx/5xx-Response-Raten. Ziel: < 2 Prozent 429/403.
  5. Dokumentation. Die WAF-Ausnahme in der Security-Policy dokumentieren, damit sie nicht bei Routine-Updates gelöscht wird.

Parallel ist zu entscheiden, welche Bereiche via robots.txt gesperrt bleiben: Mitgliederbereiche, interne Tools, Kunden-Dashboards. Der öffentliche Content — Blog, Glossar, Produkt-Seiten, Pressebereich — gehört typischerweise in die zugelassene Zone.

Typische Fehler in GPTBot-Strategien

Verwandte Begriffe

GPTBot ist Teil der KI-Crawler-Landschaft, zusammen mit Google-Extended, ClaudeBot, PerplexityBot und CCBot. Die Steuerung erfolgt über robots.txt, ergänzend über llms.txt und WAF-Policy. Strategisch gehört GPTBot in jede GEO- und LLM-SEO-Infrastruktur.


FAQ zu GPTBot

Was ist GPTBot?

GPTBot ist der Web-Crawler von OpenAI, eingeführt im August 2023. Er sammelt öffentlich zugängliche Webinhalte als Trainingsmaterial für zukünftige GPT-Modell-Generationen. Der User-Agent lautet 'GPTBot'. Parallel operiert OAI-SearchBot für die ChatGPT-Search-Funktionalität und ChatGPT-User für Live-Abrufe während einer Nutzer-Sitzung.

Wie sperrt man GPTBot aus?

Über einen Eintrag in der robots.txt: User-agent: GPTBot / Disallow: /. OpenAI dokumentiert das offiziell und respektiert die Direktive. Die Sperre wirkt für zukünftiges Crawling; bereits trainierte Modelle behalten den Inhalt. Für vollständige Kontrolle muss zusätzlich OAI-SearchBot und ChatGPT-User adressiert werden.

Was ist das 429-Problem?

Viele Sites blockieren GPTBot unbeabsichtigt über WAF-Regeln oder Rate-Limits, die zu 429 Too Many Requests führen. Der Crawler wird dann als verdächtiger Traffic eingestuft und aussortiert, obwohl robots.txt den Zugriff erlaubt. 2024–2025 war das der häufigste Grund für fehlende ChatGPT-Zitationen trotz offener Crawler-Policy.

Unterscheidet sich GPTBot von OAI-SearchBot?

Ja. GPTBot sammelt Trainingsdaten für Modell-Updates. OAI-SearchBot indexiert für die ChatGPT-Search-Funktionalität — vergleichbar mit einem klassischen Search-Crawler. ChatGPT-User wiederum holt Inhalte live beim Nutzer-Request ab. Alle drei User-Agents müssen separat in robots.txt adressiert werden.

Schadet das Zulassen von GPTBot der eigenen Domain?

In der Regel nein. GPTBot respektiert robots.txt, nutzt ein publiziertes IP-Range (dokumentiert auf platform.openai.com) und erzeugt überschaubare Last. Die Sperre schließt die Domain vollständig aus zukünftigen GPT-Modell-Generationen aus. Für Publisher, die auf LLM-Sichtbarkeit Wert legen, ist das offene Zulassen die Standard-Empfehlung.