llms.txt: Proposed Standard für LLM-Inhalte

Definition: Was ist llms.txt?

Die llms.txt ist ein 2024 von Jeremy Howard (Answer.AI) vorgeschlagener Standard für eine kuratierte, Markdown-formatierte Datei im Website-Root (/llms.txt). Sie gibt Large Language Models und deren Tool-Stacks eine maschinenlesbare Übersicht über die wichtigsten Inhalte einer Site: Kern-Seiten, Dokumentationen, API-Referenzen, Whitepaper, Policy-Seiten. Das Format ist bewusst schlank - Markdown, keine neuen Schemata - und damit für Publisher und LLMs gleichermaßen einfach zu verarbeiten.

Wichtig zur Einordnung: llms.txt ist ein Proposed Standard, kein formaler Web-Standard. Weder IETF noch W3C haben ihn ratifiziert. Weder OpenAI, Anthropic, Google noch Perplexity haben offiziell bestätigt, dass ihre Crawler die Datei verbindlich konsumieren. Die Adoption ist Community-getrieben: Answer.AI, Anthropic-Dokumentation, Vercel, Stripe und zahlreiche Dev-Tool-Anbieter haben llms.txt implementiert. Der strategische Wert liegt in redaktioneller Kuration und Signal - nicht in garantierter LLM-Wirkung.

Kern-Aussage

llms.txt ist ein Signal, keine Garantie

Die Datei reguliert nichts. Sie kuratiert. Ihr Wert liegt im redaktionellen Prozess - welche Inhalte sind für eine externe Maschine relevant? - und im Signal an Tool-Entwickler und LLM-Provider, dass die Site strukturiert gepflegt wird.

Abgrenzung zu robots.txt

Die beiden Formate werden häufig verwechselt. robots.txt ist ein Zugangskontroll-Mechanismus: Welche Crawler dürfen welche Pfade abrufen. Es ist ein 1994 etablierter De-facto-Standard, der von allen seriösen Crawlern respektiert wird. llms.txt hingegen ist eine Kurations-Empfehlung: Welche Inhalte sind für LLM-Konsum besonders relevant. Es reguliert nichts. Beide Dateien liegen im Root, haben aber fundamental unterschiedliche Funktionen.

Operativ ergänzen sie sich: GPTBot, Google-Extended und ClaudeBot werden über robots.txt reguliert; llms.txt kuratiert die Inhalte für die Fälle, in denen die Crawler zugelassen sind oder in denen Nutzer die Site direkt in einem Chatbot aufrufen.

Struktur und Syntax

Das Format ist Markdown. Die Spezifikation empfiehlt folgende Struktur:

# Site-Name

> Kurze Beschreibung der Site in 1-3 Sätzen.

Optionaler erweiterter Abschnitt mit Zusatzkontext,
Zielgruppe, Lizenz oder Nutzungshinweisen.

## Docs

- [Getting Started](https://example.com/docs/start): Erstes Setup
- [API Reference](https://example.com/docs/api): Alle Endpoints

## Examples

- [Quickstart](https://example.com/examples/quickstart.md): Minimal-Beispiel
- [Advanced](https://example.com/examples/advanced.md): Fortgeschrittene Muster

## Optional

- [Changelog](https://example.com/changelog)
- [Archiv](https://example.com/archive)

Der Abschnitt ## Optional ist besonders: Links hier sind Hinweise, dürfen aber vom LLM-Konsumenten übersprungen werden, wenn Token-Budget knapp ist. Alle anderen Sektionen gelten als wichtig.

llms-full.txt - die Volltext-Variante

Parallel zur kuratierten Link-Liste empfiehlt die Spezifikation eine zweite Datei: /llms-full.txt. Sie enthält den kompletten Klartext aller in llms.txt referenzierten Seiten, konkatenierenartig aufbereitet. Ziel: Ein LLM kann mit einem einzigen Request den relevanten Site-Kontext in seinen Context-Window laden, ohne jede Einzelseite separat zu fetchen. Das reduziert Latenz und Tool-Call-Overhead bei Dev-Agent-Nutzung dramatisch.

Für Enterprise-Sites mit Tausenden von Seiten ist llms-full.txt nicht realistisch. Die Priorisierung auf die wichtigsten 30-100 Seiten ist der Standard. Für Dokumentations-Sites (Stripe, Vercel, Anthropic-Docs) ist die Vollversion der primäre Use-Case.

Praxis: llms.txt für Enterprise-Sites

Operative Umsetzung in sechs Schritten:

Kuration: Welche 30-50 Seiten repräsentieren die Kern-Expertise und Kern-Services? Entscheidung gemeinsam mit Redaktion und Produkt.
Kategorisierung: Sektionen wie ## Services, ## Methodologie, ## Cases, ## Glossar.
Beschreibungen: Jeder Link mit 5-15-Wort-Summary. Keine Marketing-Floskeln, konkrete Fakten.
Abschnitt Optional: Blog-Archive, Presse-Archive, tiefe Feature-Seiten.
Pflege: Quartalsweises Update. Tote Links entfernen. Neue Kern-Content-Inseln aufnehmen.
Technik: Datei als UTF-8, Content-Type text/plain; charset=utf-8, HTTP 200 auf /llms.txt. Kein Redirect, kein CMS-Wrapper.

Typische Fehler in llms.txt-Implementierungen

Automatisch generierter Dump. Jede URL aus der Sitemap 1:1 übernommen. Löst den Kern-Zweck der Kuration auf. llms.txt verliert Signal-Wert.
Marketing-Bulletpoints statt Fakten. „Wir sind Marktführer". Ohne konkreten inhaltlichen Mehrwert. LLMs nutzen das nicht als Kontext.
Keine Pflege. Datei vom Januar 2024, tote Links zu umstrukturierten Seiten. Vertrauens-Signal negativ.
Verwechslung mit robots.txt. Zugangsblockaden in llms.txt sind wirkungslos. Wer GPTBot aussperren will, tut das in robots.txt.
Übergroße llms-full.txt. Dateien über 5 MB überschreiten typische LLM-Context-Windows und werden fragmentiert geladen. Priorisierung auf wirkliche Kern-Inhalte.

FAQ zu llms.txt

Was ist llms.txt? ▾

llms.txt ist ein Proposed Standard, initiiert 2024 von Jeremy Howard (Answer.AI), der eine kuratierte, Markdown-formatierte Übersicht der wichtigsten Inhalte einer Website im Root-Verzeichnis bereitstellt. Ziel: LLMs eine maschinenlesbare Navigationshilfe geben, um relevante Seiten effizient zu identifizieren - ohne die komplette Website crawlen zu müssen.

Ist llms.txt ein offizieller Standard? ▾

Nein, llms.txt ist ein Proposed Standard ohne formale Ratifizierung durch IETF oder W3C. Weder OpenAI, Anthropic, Google noch Perplexity haben offiziell bestätigt, dass ihre Crawler das Format verbindlich konsumieren. Die Adoption ist Community-getrieben. Der strategische Wert liegt in Dokumentation und Signal - nicht in garantierter Wirkung.

Wie unterscheidet sich llms.txt von robots.txt? ▾

robots.txt reguliert Crawler-Zugriff - was darf gecrawlt werden. llms.txt kuratiert Inhalte - was ist relevant. robots.txt ist Zugangskontrolle, llms.txt ist Empfehlung. Beide Dateien liegen im Root, haben aber unterschiedliche Funktionen und werden von unterschiedlichen Systemen konsumiert.

Wie wird llms.txt strukturiert? ▾

Markdown-Format mit H1-Titel (Site-Name), Blockquote-Zusammenfassung, optionalen Detail-Paragraphen und H2-Sektionen, die gruppierte Links mit Beschreibungen enthalten. Zusätzlich empfiehlt sich llms-full.txt mit den vollständigen Inhalten wichtiger Seiten als Volltext für LLM-Kontext.

Muss ich llms.txt anlegen? ▾

Nicht zwingend. Der operative Wert liegt in der redaktionellen Disziplin - llms.txt zwingt zur Kuration der wichtigsten Seiten und liefert gleichzeitig ein klares Signal an Tool-Entwickler, dass die Site strukturiert gepflegt wird. Für Knowledge-Bases, Dokumentations-Sites und Fach-Portale ist es eine lohnende Investition.

llms.txt

Definition: Was ist llms.txt?

llms.txt ist ein Signal, keine Garantie

Abgrenzung zu robots.txt

Struktur und Syntax

llms-full.txt - die Volltext-Variante

Praxis: llms.txt für Enterprise-Sites

Typische Fehler in llms.txt-Implementierungen

Verwandte Begriffe

FAQ zu llms.txt

llms.txt-Kuratierung für Ihre Domain.

Definition: Was ist llms.txt?

llms.txt ist ein Signal, keine Garantie

Abgrenzung zu robots.txt

Struktur und Syntax

llms-full.txt - die Volltext-Variante

Praxis: llms.txt für Enterprise-Sites

Typische Fehler in llms.txt-Implementierungen

Verwandte Begriffe

FAQ zu llms.txt

Weiterführende Analysen

Technical SEO im KI-Crawler-Zeitalter - Audit-Framework

Prompt-Level SEO - Das Playbook für ChatGPT-Citations

GEO vs. SEO - Warum Generative Engine Optimization eine neue Disziplin ist

ChatGPT SEO: llms.txt im Kontext.

RAG & SEO: Passage-Optimierung.

Answer Engine Optimization: Der Stack.

llms.txt-Kuratierung für Ihre Domain.