Definition: Was ist GPTBot?

GPTBot ist der offizielle Web-Crawler von OpenAI. Er wurde im August 2023 eingeführt und sammelt öffentlich zugängliche Inhalte, die in zukünftige Trainingsläufe der GPT-Modell-Familie einfließen. Der User-Agent lautet schlicht GPTBot, die vollständige User-Agent-Zeichenkette wird auf platform.openai.com/docs/gptbot dokumentiert, ebenso die offiziellen IP-Ranges als JSON-Datei. Durch publizierte IP-Bereiche kann der Crawler zuverlässig von Spoofing-Versuchen unterschieden werden.

Wichtig zur Abgrenzung: GPTBot ist nicht der einzige OpenAI-User-Agent. Für die ChatGPT-Search-Funktion operiert OAI-SearchBot, für Live-Abrufe während einer Nutzer-Session ChatGPT-User. Die drei User-Agents haben unterschiedliche Zwecke und müssen in robots.txt separat adressiert werden. Wer „GPTBot" sperrt, sperrt nicht automatisch die ChatGPT-Suche - ein häufiges Missverständnis in Enterprise-Policies.

Kern-Aussage

Das häufigste Blockade-Problem ist nicht robots.txt, sondern die WAF

Viele Domains erlauben GPTBot in robots.txt - blockieren ihn aber via Cloudflare-, Akamai- oder AWS-WAF mit 429-Rate-Limits. Die Folge: unerwünschte Unsichtbarkeit in ChatGPT trotz offener Crawler-Policy.

Steuerung über robots.txt

Die primäre Steuerung erfolgt über die robots.txt-Datei im Website-Root. Die Basis-Syntax für vollständige Sperre:

User-agent: GPTBot
Disallow: /

Für selektive Kontrolle - etwa nur das Blog öffnen, den Mitgliederbereich sperren:

User-agent: GPTBot
Allow: /blog/
Disallow: /

Für das Zulassen mit feinkörniger Steuerung mehrerer OpenAI-User-Agents:

User-agent: GPTBot
Disallow: /internal/
Disallow: /kunden/

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

OpenAI respektiert die robots.txt-Direktive nach eigener Dokumentation konsistent. Unabhängige Traffic-Analysen bestätigen das seit 2023 verlässlich - Abweichungen sind nicht dokumentiert.

Das 429-Problem: WAF-Blockaden trotz offener robots.txt

In der Praxis scheitert GPTBot auf vielen Domains nicht an robots.txt, sondern an der Web Application Firewall. Cloudflare, Akamai, AWS WAF, Imperva und Fastly haben Default-Regeln, die Bot-Traffic aus unbekannten User-Agents aggressiv raten-limitieren oder mit Challenge-Prompts beantworten. GPTBot kann CAPTCHAs nicht lösen und erhält in der Folge HTTP 429 Too Many Requests oder 403 Forbidden - obwohl die robots.txt-Direktive ihn explizit zulässt.

Das Muster ist verbreitet. Nach Cloudflare-Daten aus 2024 lag der Anteil der Domains, die GPTBot via WAF blockieren, ohne ihn in robots.txt zu sperren, im zweistelligen Prozentbereich. Für Publisher, die auf LLM-Sichtbarkeit Wert legen, ist das ein operatives Problem: Der Crawler wird als aggressiv eingestuft, Content bleibt untrainiert, die Marke verschwindet aus zukünftigen ChatGPT-Antworten.

Praxis: WAF-Policy für GPTBot

  1. Verifikation. Offizielle IP-Range aus OpenAIs JSON-Liste (openai.com/gptbot-ranges.json) ziehen und als vertrauenswürdig markieren.
  2. Rate-Limits anheben. Für verifizierte GPTBot-IPs mindestens 100 Requests/Minute erlauben.
  3. Challenges deaktivieren. Für GPTBot-IPs keine JavaScript- oder CAPTCHA-Challenges. Der Crawler rendert kein JavaScript.
  4. Logging. Separate Log-Kategorie für GPTBot-Traffic. Monatlicher Check auf 4xx/5xx-Response-Raten. Ziel: < 2 Prozent 429/403.
  5. Dokumentation. Die WAF-Ausnahme in der Security-Policy dokumentieren, damit sie nicht bei Routine-Updates gelöscht wird.

Parallel ist zu entscheiden, welche Bereiche via robots.txt gesperrt bleiben: Mitgliederbereiche, interne Tools, Kunden-Dashboards. Der öffentliche Content - Blog, Glossar, Produkt-Seiten, Pressebereich - gehört typischerweise in die zugelassene Zone.

Typische Fehler in GPTBot-Strategien

Verwandte Begriffe

GPTBot ist Teil der KI-Crawler-Landschaft, zusammen mit Google-Extended, ClaudeBot, PerplexityBot und CCBot. Die Steuerung erfolgt über robots.txt, ergänzend über llms.txt und WAF-Policy. Strategisch gehört GPTBot in jede GEO- und LLM-SEO-Infrastruktur.


FAQ zu GPTBot

Was ist GPTBot?

GPTBot ist der Web-Crawler von OpenAI, eingeführt im August 2023. Er sammelt öffentlich zugängliche Webinhalte als Trainingsmaterial für zukünftige GPT-Modell-Generationen. Der User-Agent lautet 'GPTBot'. Parallel operiert OAI-SearchBot für die ChatGPT-Search-Funktionalität und ChatGPT-User für Live-Abrufe während einer Nutzer-Sitzung.

Wie sperrt man GPTBot aus?

Über einen Eintrag in der robots.txt: User-agent: GPTBot / Disallow: /. OpenAI dokumentiert das offiziell und respektiert die Direktive. Die Sperre wirkt für zukünftiges Crawling; bereits trainierte Modelle behalten den Inhalt. Für vollständige Kontrolle muss zusätzlich OAI-SearchBot und ChatGPT-User adressiert werden.

Was ist das 429-Problem?

Viele Sites blockieren GPTBot unbeabsichtigt über WAF-Regeln oder Rate-Limits, die zu 429 Too Many Requests führen. Der Crawler wird dann als verdächtiger Traffic eingestuft und aussortiert, obwohl robots.txt den Zugriff erlaubt. 2024-2025 war das der häufigste Grund für fehlende ChatGPT-Zitationen trotz offener Crawler-Policy.

Unterscheidet sich GPTBot von OAI-SearchBot?

Ja. GPTBot sammelt Trainingsdaten für Modell-Updates. OAI-SearchBot indexiert für die ChatGPT-Search-Funktionalität - vergleichbar mit einem klassischen Search-Crawler. ChatGPT-User wiederum holt Inhalte live beim Nutzer-Request ab. Alle drei User-Agents müssen separat in robots.txt adressiert werden.

Schadet das Zulassen von GPTBot der eigenen Domain?

In der Regel nein. GPTBot respektiert robots.txt, nutzt ein publiziertes IP-Range (dokumentiert auf platform.openai.com) und erzeugt überschaubare Last. Die Sperre schließt die Domain vollständig aus zukünftigen GPT-Modell-Generationen aus. Für Publisher, die auf LLM-Sichtbarkeit Wert legen, ist das offene Zulassen die Standard-Empfehlung.