Definition: Was ist GPTBot?
GPTBot ist der offizielle Web-Crawler von OpenAI. Er wurde im August 2023 eingeführt und sammelt öffentlich zugängliche Inhalte, die in zukünftige Trainingsläufe der GPT-Modell-Familie einfließen. Der User-Agent lautet schlicht GPTBot, die vollständige User-Agent-Zeichenkette wird auf platform.openai.com/docs/gptbot dokumentiert, ebenso die offiziellen IP-Ranges als JSON-Datei. Durch publizierte IP-Bereiche kann der Crawler zuverlässig von Spoofing-Versuchen unterschieden werden.
Wichtig zur Abgrenzung: GPTBot ist nicht der einzige OpenAI-User-Agent. Für die ChatGPT-Search-Funktion operiert OAI-SearchBot, für Live-Abrufe während einer Nutzer-Session ChatGPT-User. Die drei User-Agents haben unterschiedliche Zwecke und müssen in robots.txt separat adressiert werden. Wer „GPTBot" sperrt, sperrt nicht automatisch die ChatGPT-Suche — ein häufiges Missverständnis in Enterprise-Policies.
Das häufigste Blockade-Problem ist nicht robots.txt, sondern die WAF
Viele Domains erlauben GPTBot in robots.txt — blockieren ihn aber via Cloudflare-, Akamai- oder AWS-WAF mit 429-Rate-Limits. Die Folge: unerwünschte Unsichtbarkeit in ChatGPT trotz offener Crawler-Policy.
Steuerung über robots.txt
Die primäre Steuerung erfolgt über die robots.txt-Datei im Website-Root. Die Basis-Syntax für vollständige Sperre:
User-agent: GPTBot Disallow: /
Für selektive Kontrolle — etwa nur das Blog öffnen, den Mitgliederbereich sperren:
User-agent: GPTBot Allow: /blog/ Disallow: /
Für das Zulassen mit feinkörniger Steuerung mehrerer OpenAI-User-Agents:
User-agent: GPTBot Disallow: /internal/ Disallow: /kunden/ User-agent: OAI-SearchBot Allow: / User-agent: ChatGPT-User Allow: /
OpenAI respektiert die robots.txt-Direktive nach eigener Dokumentation konsistent. Unabhängige Traffic-Analysen bestätigen das seit 2023 verlässlich — Abweichungen sind nicht dokumentiert.
Das 429-Problem: WAF-Blockaden trotz offener robots.txt
In der Praxis scheitert GPTBot auf vielen Domains nicht an robots.txt, sondern an der Web Application Firewall. Cloudflare, Akamai, AWS WAF, Imperva und Fastly haben Default-Regeln, die Bot-Traffic aus unbekannten User-Agents aggressiv raten-limitieren oder mit Challenge-Prompts beantworten. GPTBot kann CAPTCHAs nicht lösen und erhält in der Folge HTTP 429 Too Many Requests oder 403 Forbidden — obwohl die robots.txt-Direktive ihn explizit zulässt.
Das Muster ist verbreitet. Nach Cloudflare-Daten aus 2024 lag der Anteil der Domains, die GPTBot via WAF blockieren, ohne ihn in robots.txt zu sperren, im zweistelligen Prozentbereich. Für Publisher, die auf LLM-Sichtbarkeit Wert legen, ist das ein operatives Problem: Der Crawler wird als aggressiv eingestuft, Content bleibt untrainiert, die Marke verschwindet aus zukünftigen ChatGPT-Antworten.
Praxis: WAF-Policy für GPTBot
- Verifikation. Offizielle IP-Range aus OpenAIs JSON-Liste (
openai.com/gptbot-ranges.json) ziehen und als vertrauenswürdig markieren. - Rate-Limits anheben. Für verifizierte GPTBot-IPs mindestens 100 Requests/Minute erlauben.
- Challenges deaktivieren. Für GPTBot-IPs keine JavaScript- oder CAPTCHA-Challenges. Der Crawler rendert kein JavaScript.
- Logging. Separate Log-Kategorie für GPTBot-Traffic. Monatlicher Check auf 4xx/5xx-Response-Raten. Ziel: < 2 Prozent 429/403.
- Dokumentation. Die WAF-Ausnahme in der Security-Policy dokumentieren, damit sie nicht bei Routine-Updates gelöscht wird.
Parallel ist zu entscheiden, welche Bereiche via robots.txt gesperrt bleiben: Mitgliederbereiche, interne Tools, Kunden-Dashboards. Der öffentliche Content — Blog, Glossar, Produkt-Seiten, Pressebereich — gehört typischerweise in die zugelassene Zone.
Typische Fehler in GPTBot-Strategien
- Blanke Sperre aus Unsicherheit.
User-agent: * / Disallow: /im Glauben, das schließe nur „AI aus". In Wirklichkeit sperrt das auch Google und alle seriösen Crawler. Häufiger Fehler in CMS-Default-Konfigurationen. - WAF-Blockade nicht erkannt. robots.txt ist offen, aber die Logs zeigen hunderte 429 von GPTBot. Ohne separates WAF-Monitoring bleibt das Problem unsichtbar.
- Verwechslung der User-Agents. Nur GPTBot gesperrt, aber OAI-SearchBot und ChatGPT-User vergessen. Ergebnis: Modell-Training blockiert, Live-Suche weiterhin offen.
- Keine IP-Verifikation. Requests mit User-Agent „GPTBot" werden pauschal zugelassen. Spoofer missbrauchen das für ungeschützte Scraper-Zugriffe. Nur IPs aus der OpenAI-JSON-Liste vertrauen.
- Undokumentierte Policy. Security-Team stellt in der nächsten WAF-Routine alles zurück auf Default. GPTBot wird erneut blockiert.
Verwandte Begriffe
GPTBot ist Teil der KI-Crawler-Landschaft, zusammen mit Google-Extended, ClaudeBot, PerplexityBot und CCBot. Die Steuerung erfolgt über robots.txt, ergänzend über llms.txt und WAF-Policy. Strategisch gehört GPTBot in jede GEO- und LLM-SEO-Infrastruktur.
FAQ zu GPTBot
Was ist GPTBot? ▾
GPTBot ist der Web-Crawler von OpenAI, eingeführt im August 2023. Er sammelt öffentlich zugängliche Webinhalte als Trainingsmaterial für zukünftige GPT-Modell-Generationen. Der User-Agent lautet 'GPTBot'. Parallel operiert OAI-SearchBot für die ChatGPT-Search-Funktionalität und ChatGPT-User für Live-Abrufe während einer Nutzer-Sitzung.
Wie sperrt man GPTBot aus? ▾
Über einen Eintrag in der robots.txt: User-agent: GPTBot / Disallow: /. OpenAI dokumentiert das offiziell und respektiert die Direktive. Die Sperre wirkt für zukünftiges Crawling; bereits trainierte Modelle behalten den Inhalt. Für vollständige Kontrolle muss zusätzlich OAI-SearchBot und ChatGPT-User adressiert werden.
Was ist das 429-Problem? ▾
Viele Sites blockieren GPTBot unbeabsichtigt über WAF-Regeln oder Rate-Limits, die zu 429 Too Many Requests führen. Der Crawler wird dann als verdächtiger Traffic eingestuft und aussortiert, obwohl robots.txt den Zugriff erlaubt. 2024–2025 war das der häufigste Grund für fehlende ChatGPT-Zitationen trotz offener Crawler-Policy.
Unterscheidet sich GPTBot von OAI-SearchBot? ▾
Ja. GPTBot sammelt Trainingsdaten für Modell-Updates. OAI-SearchBot indexiert für die ChatGPT-Search-Funktionalität — vergleichbar mit einem klassischen Search-Crawler. ChatGPT-User wiederum holt Inhalte live beim Nutzer-Request ab. Alle drei User-Agents müssen separat in robots.txt adressiert werden.
Schadet das Zulassen von GPTBot der eigenen Domain? ▾
In der Regel nein. GPTBot respektiert robots.txt, nutzt ein publiziertes IP-Range (dokumentiert auf platform.openai.com) und erzeugt überschaubare Last. Die Sperre schließt die Domain vollständig aus zukünftigen GPT-Modell-Generationen aus. Für Publisher, die auf LLM-Sichtbarkeit Wert legen, ist das offene Zulassen die Standard-Empfehlung.