Definition: Was ist GPTBot?
GPTBot ist der offizielle Web-Crawler von OpenAI. Er wurde im August 2023 eingeführt und sammelt öffentlich zugängliche Inhalte, die in zukünftige Trainingsläufe der GPT-Modell-Familie einfließen. Der User-Agent lautet schlicht GPTBot, die vollständige User-Agent-Zeichenkette wird auf platform.openai.com/docs/gptbot dokumentiert, ebenso die offiziellen IP-Ranges als JSON-Datei. Durch publizierte IP-Bereiche kann der Crawler zuverlässig von Spoofing-Versuchen unterschieden werden.
Wichtig zur Abgrenzung: GPTBot ist nicht der einzige OpenAI-User-Agent. Für die ChatGPT-Search-Funktion operiert OAI-SearchBot, für Live-Abrufe während einer Nutzer-Session ChatGPT-User. Die drei User-Agents haben unterschiedliche Zwecke und müssen in robots.txt separat adressiert werden. Wer „GPTBot" sperrt, sperrt nicht automatisch die ChatGPT-Suche - ein häufiges Missverständnis in Enterprise-Policies.
Das häufigste Blockade-Problem ist nicht robots.txt, sondern die WAF
Viele Domains erlauben GPTBot in robots.txt - blockieren ihn aber via Cloudflare-, Akamai- oder AWS-WAF mit 429-Rate-Limits. Die Folge: unerwünschte Unsichtbarkeit in ChatGPT trotz offener Crawler-Policy.
Steuerung über robots.txt
Die primäre Steuerung erfolgt über die robots.txt-Datei im Website-Root. Die Basis-Syntax für vollständige Sperre:
User-agent: GPTBot Disallow: /
Für selektive Kontrolle - etwa nur das Blog öffnen, den Mitgliederbereich sperren:
User-agent: GPTBot Allow: /blog/ Disallow: /
Für das Zulassen mit feinkörniger Steuerung mehrerer OpenAI-User-Agents:
User-agent: GPTBot Disallow: /internal/ Disallow: /kunden/ User-agent: OAI-SearchBot Allow: / User-agent: ChatGPT-User Allow: /
OpenAI respektiert die robots.txt-Direktive nach eigener Dokumentation konsistent. Unabhängige Traffic-Analysen bestätigen das seit 2023 verlässlich - Abweichungen sind nicht dokumentiert.
Das 429-Problem: WAF-Blockaden trotz offener robots.txt
In der Praxis scheitert GPTBot auf vielen Domains nicht an robots.txt, sondern an der Web Application Firewall. Cloudflare, Akamai, AWS WAF, Imperva und Fastly haben Default-Regeln, die Bot-Traffic aus unbekannten User-Agents aggressiv raten-limitieren oder mit Challenge-Prompts beantworten. GPTBot kann CAPTCHAs nicht lösen und erhält in der Folge HTTP 429 Too Many Requests oder 403 Forbidden - obwohl die robots.txt-Direktive ihn explizit zulässt.
Das Muster ist verbreitet. Nach Cloudflare-Daten aus 2024 lag der Anteil der Domains, die GPTBot via WAF blockieren, ohne ihn in robots.txt zu sperren, im zweistelligen Prozentbereich. Für Publisher, die auf LLM-Sichtbarkeit Wert legen, ist das ein operatives Problem: Der Crawler wird als aggressiv eingestuft, Content bleibt untrainiert, die Marke verschwindet aus zukünftigen ChatGPT-Antworten.
Praxis: WAF-Policy für GPTBot
- Verifikation. Offizielle IP-Range aus OpenAIs JSON-Liste (
openai.com/gptbot-ranges.json) ziehen und als vertrauenswürdig markieren. - Rate-Limits anheben. Für verifizierte GPTBot-IPs mindestens 100 Requests/Minute erlauben.
- Challenges deaktivieren. Für GPTBot-IPs keine JavaScript- oder CAPTCHA-Challenges. Der Crawler rendert kein JavaScript.
- Logging. Separate Log-Kategorie für GPTBot-Traffic. Monatlicher Check auf 4xx/5xx-Response-Raten. Ziel: < 2 Prozent 429/403.
- Dokumentation. Die WAF-Ausnahme in der Security-Policy dokumentieren, damit sie nicht bei Routine-Updates gelöscht wird.
Parallel ist zu entscheiden, welche Bereiche via robots.txt gesperrt bleiben: Mitgliederbereiche, interne Tools, Kunden-Dashboards. Der öffentliche Content - Blog, Glossar, Produkt-Seiten, Pressebereich - gehört typischerweise in die zugelassene Zone.
Typische Fehler in GPTBot-Strategien
- Blanke Sperre aus Unsicherheit.
User-agent: * / Disallow: /im Glauben, das schließe nur „AI aus". In Wirklichkeit sperrt das auch Google und alle seriösen Crawler. Häufiger Fehler in CMS-Default-Konfigurationen. - WAF-Blockade nicht erkannt. robots.txt ist offen, aber die Logs zeigen hunderte 429 von GPTBot. Ohne separates WAF-Monitoring bleibt das Problem unsichtbar.
- Verwechslung der User-Agents. Nur GPTBot gesperrt, aber OAI-SearchBot und ChatGPT-User vergessen. Ergebnis: Modell-Training blockiert, Live-Suche weiterhin offen.
- Keine IP-Verifikation. Requests mit User-Agent „GPTBot" werden pauschal zugelassen. Spoofer missbrauchen das für ungeschützte Scraper-Zugriffe. Nur IPs aus der OpenAI-JSON-Liste vertrauen.
- Undokumentierte Policy. Security-Team stellt in der nächsten WAF-Routine alles zurück auf Default. GPTBot wird erneut blockiert.
Verwandte Begriffe
GPTBot ist Teil der KI-Crawler-Landschaft, zusammen mit Google-Extended, ClaudeBot, PerplexityBot und CCBot. Die Steuerung erfolgt über robots.txt, ergänzend über llms.txt und WAF-Policy. Strategisch gehört GPTBot in jede GEO- und LLM-SEO-Infrastruktur.
FAQ zu GPTBot
Was ist GPTBot? ▾
GPTBot ist der Web-Crawler von OpenAI, eingeführt im August 2023. Er sammelt öffentlich zugängliche Webinhalte als Trainingsmaterial für zukünftige GPT-Modell-Generationen. Der User-Agent lautet 'GPTBot'. Parallel operiert OAI-SearchBot für die ChatGPT-Search-Funktionalität und ChatGPT-User für Live-Abrufe während einer Nutzer-Sitzung.
Wie sperrt man GPTBot aus? ▾
Über einen Eintrag in der robots.txt: User-agent: GPTBot / Disallow: /. OpenAI dokumentiert das offiziell und respektiert die Direktive. Die Sperre wirkt für zukünftiges Crawling; bereits trainierte Modelle behalten den Inhalt. Für vollständige Kontrolle muss zusätzlich OAI-SearchBot und ChatGPT-User adressiert werden.
Was ist das 429-Problem? ▾
Viele Sites blockieren GPTBot unbeabsichtigt über WAF-Regeln oder Rate-Limits, die zu 429 Too Many Requests führen. Der Crawler wird dann als verdächtiger Traffic eingestuft und aussortiert, obwohl robots.txt den Zugriff erlaubt. 2024-2025 war das der häufigste Grund für fehlende ChatGPT-Zitationen trotz offener Crawler-Policy.
Unterscheidet sich GPTBot von OAI-SearchBot? ▾
Ja. GPTBot sammelt Trainingsdaten für Modell-Updates. OAI-SearchBot indexiert für die ChatGPT-Search-Funktionalität - vergleichbar mit einem klassischen Search-Crawler. ChatGPT-User wiederum holt Inhalte live beim Nutzer-Request ab. Alle drei User-Agents müssen separat in robots.txt adressiert werden.
Schadet das Zulassen von GPTBot der eigenen Domain? ▾
In der Regel nein. GPTBot respektiert robots.txt, nutzt ein publiziertes IP-Range (dokumentiert auf platform.openai.com) und erzeugt überschaubare Last. Die Sperre schließt die Domain vollständig aus zukünftigen GPT-Modell-Generationen aus. Für Publisher, die auf LLM-Sichtbarkeit Wert legen, ist das offene Zulassen die Standard-Empfehlung.