Definition: Was ist llms.txt?

Die llms.txt ist ein 2024 von Jeremy Howard (Answer.AI) vorgeschlagener Standard für eine kuratierte, Markdown-formatierte Datei im Website-Root (/llms.txt). Sie gibt Large Language Models und deren Tool-Stacks eine maschinenlesbare Übersicht über die wichtigsten Inhalte einer Site: Kern-Seiten, Dokumentationen, API-Referenzen, Whitepaper, Policy-Seiten. Das Format ist bewusst schlank — Markdown, keine neuen Schemata — und damit für Publisher und LLMs gleichermaßen einfach zu verarbeiten.

Wichtig zur Einordnung: llms.txt ist ein Proposed Standard, kein formaler Web-Standard. Weder IETF noch W3C haben ihn ratifiziert. Weder OpenAI, Anthropic, Google noch Perplexity haben offiziell bestätigt, dass ihre Crawler die Datei verbindlich konsumieren. Die Adoption ist Community-getrieben: Answer.AI, Anthropic-Dokumentation, Vercel, Stripe und zahlreiche Dev-Tool-Anbieter haben llms.txt implementiert. Der strategische Wert liegt in redaktioneller Kuration und Signal — nicht in garantierter LLM-Wirkung.

Kern-Aussage

llms.txt ist ein Signal, keine Garantie

Die Datei reguliert nichts. Sie kuratiert. Ihr Wert liegt im redaktionellen Prozess — welche Inhalte sind für eine externe Maschine relevant? — und im Signal an Tool-Entwickler und LLM-Provider, dass die Site strukturiert gepflegt wird.

Abgrenzung zu robots.txt

Die beiden Formate werden häufig verwechselt. robots.txt ist ein Zugangskontroll-Mechanismus: Welche Crawler dürfen welche Pfade abrufen. Es ist ein 1994 etablierter De-facto-Standard, der von allen seriösen Crawlern respektiert wird. llms.txt hingegen ist eine Kurations-Empfehlung: Welche Inhalte sind für LLM-Konsum besonders relevant. Es reguliert nichts. Beide Dateien liegen im Root, haben aber fundamental unterschiedliche Funktionen.

Operativ ergänzen sie sich: GPTBot, Google-Extended und ClaudeBot werden über robots.txt reguliert; llms.txt kuratiert die Inhalte für die Fälle, in denen die Crawler zugelassen sind oder in denen Nutzer die Site direkt in einem Chatbot aufrufen.

Struktur und Syntax

Das Format ist Markdown. Die Spezifikation empfiehlt folgende Struktur:

# Site-Name

> Kurze Beschreibung der Site in 1–3 Sätzen.

Optionaler erweiterter Abschnitt mit Zusatzkontext,
Zielgruppe, Lizenz oder Nutzungshinweisen.

## Docs

- [Getting Started](https://example.com/docs/start): Erstes Setup
- [API Reference](https://example.com/docs/api): Alle Endpoints

## Examples

- [Quickstart](https://example.com/examples/quickstart.md): Minimal-Beispiel
- [Advanced](https://example.com/examples/advanced.md): Fortgeschrittene Muster

## Optional

- [Changelog](https://example.com/changelog)
- [Archiv](https://example.com/archive)

Der Abschnitt ## Optional ist besonders: Links hier sind Hinweise, dürfen aber vom LLM-Konsumenten übersprungen werden, wenn Token-Budget knapp ist. Alle anderen Sektionen gelten als wichtig.

llms-full.txt — die Volltext-Variante

Parallel zur kuratierten Link-Liste empfiehlt die Spezifikation eine zweite Datei: /llms-full.txt. Sie enthält den kompletten Klartext aller in llms.txt referenzierten Seiten, konkatenierenartig aufbereitet. Ziel: Ein LLM kann mit einem einzigen Request den relevanten Site-Kontext in seinen Context-Window laden, ohne jede Einzelseite separat zu fetchen. Das reduziert Latenz und Tool-Call-Overhead bei Dev-Agent-Nutzung dramatisch.

Für Enterprise-Sites mit Tausenden von Seiten ist llms-full.txt nicht realistisch. Die Priorisierung auf die wichtigsten 30–100 Seiten ist der Standard. Für Dokumentations-Sites (Stripe, Vercel, Anthropic-Docs) ist die Vollversion der primäre Use-Case.

Praxis: llms.txt für Enterprise-Sites

Operative Umsetzung in sechs Schritten:

  1. Kuration: Welche 30–50 Seiten repräsentieren die Kern-Expertise und Kern-Services? Entscheidung gemeinsam mit Redaktion und Produkt.
  2. Kategorisierung: Sektionen wie ## Services, ## Methodologie, ## Cases, ## Glossar.
  3. Beschreibungen: Jeder Link mit 5–15-Wort-Summary. Keine Marketing-Floskeln, konkrete Fakten.
  4. Abschnitt Optional: Blog-Archive, Presse-Archive, tiefe Feature-Seiten.
  5. Pflege: Quartalsweises Update. Tote Links entfernen. Neue Kern-Content-Inseln aufnehmen.
  6. Technik: Datei als UTF-8, Content-Type text/plain; charset=utf-8, HTTP 200 auf /llms.txt. Kein Redirect, kein CMS-Wrapper.

Typische Fehler in llms.txt-Implementierungen

Verwandte Begriffe

llms.txt gehört zum operativen KI-Crawler-Setup — zusammen mit robots.txt, GPTBot, Google-Extended und weiteren KI-Crawler-User-Agents. Strategisch ist es Teil der GEO- und LLM-SEO-Infrastruktur. Für Dokumentations-Sites ergänzt es XML-Sitemaps als semantisches Kuratierungs-Signal.


FAQ zu llms.txt

Was ist llms.txt?

llms.txt ist ein Proposed Standard, initiiert 2024 von Jeremy Howard (Answer.AI), der eine kuratierte, Markdown-formatierte Übersicht der wichtigsten Inhalte einer Website im Root-Verzeichnis bereitstellt. Ziel: LLMs eine maschinenlesbare Navigationshilfe geben, um relevante Seiten effizient zu identifizieren — ohne die komplette Website crawlen zu müssen.

Ist llms.txt ein offizieller Standard?

Nein, llms.txt ist ein Proposed Standard ohne formale Ratifizierung durch IETF oder W3C. Weder OpenAI, Anthropic, Google noch Perplexity haben offiziell bestätigt, dass ihre Crawler das Format verbindlich konsumieren. Die Adoption ist Community-getrieben. Der strategische Wert liegt in Dokumentation und Signal — nicht in garantierter Wirkung.

Wie unterscheidet sich llms.txt von robots.txt?

robots.txt reguliert Crawler-Zugriff — was darf gecrawlt werden. llms.txt kuratiert Inhalte — was ist relevant. robots.txt ist Zugangskontrolle, llms.txt ist Empfehlung. Beide Dateien liegen im Root, haben aber unterschiedliche Funktionen und werden von unterschiedlichen Systemen konsumiert.

Wie wird llms.txt strukturiert?

Markdown-Format mit H1-Titel (Site-Name), Blockquote-Zusammenfassung, optionalen Detail-Paragraphen und H2-Sektionen, die gruppierte Links mit Beschreibungen enthalten. Zusätzlich empfiehlt sich llms-full.txt mit den vollständigen Inhalten wichtiger Seiten als Volltext für LLM-Kontext.

Muss ich llms.txt anlegen?

Nicht zwingend. Der operative Wert liegt in der redaktionellen Disziplin — llms.txt zwingt zur Kuration der wichtigsten Seiten und liefert gleichzeitig ein klares Signal an Tool-Entwickler, dass die Site strukturiert gepflegt wird. Für Knowledge-Bases, Dokumentations-Sites und Fach-Portale ist es eine lohnende Investition.