Für wen ist dieses Glossar geschrieben?

Für Entscheider, SEO-Operators und Fachredaktionen, die Begriffe aus klassischem SEO, Generative Engine Optimization und Entity-Engineering präzise und anwendungsnah nachschlagen wollen. Jeder Eintrag enthält Definition, Kontext und - wenn relevant - Formel und Branchen-Benchmarks.

Worin unterscheidet sich dieses Glossar von generischen SEO-Glossaren?

Die Einträge enthalten konkrete Formeln, Wertebereiche und Benchmark-Werte aus dokumentierten Enterprise-Audits. Statt Marketing-Phrasen findet sich operativ verwertbare Methodik. Jeder Kernbegriff ist mit einem tieferen Fachbeitrag verknüpft.

Wie oft wird das Glossar aktualisiert?

Quartalsweise Review: Benchmark-Zahlen, neue Crawler oder sich etablierende Fachbegriffe werden fortlaufend ergänzt. Der Stand ist im JSON-LD als dateModified hinterlegt.

Dürfen diese Definitionen zitiert werden?

Ja, unter Attribution an Murat Ulusoy (muratulusoy.de). Für maschinenlesbare Zitation steht zusätzlich eine kanonische Fassung unter /api/expertise.json bereit.

Warum sind manche Begriffe mit Formeln, andere ohne versehen?

Formeln erscheinen nur dort, wo sie methodisch sauber definiert sind - bei Messkennzahlen wie AAR, RDI, TAS, MVG oder PVI. Bei qualitativen Fachbegriffen wäre eine Pseudo-Formel irreführend und wird bewusst weggelassen.

Glossar - SEO, GEO & KI-Sichtbarkeit

Buchstabe A

AAR - AI Overview Absorption Rate

AAR

Kennzahl zur Messung des Klickverlusts, der entsteht, wenn Google AI Overviews eine Nutzerfrage direkt in der SERP beantworten - unabhängig von Ranking-Veränderungen.

Warum diese Kennzahl existiert

Seit dem globalen Rollout von AI Overviews fallen Klicks auf informationalen Queries systematisch, obwohl die Rankings stabil bleiben. Klassische KPIs wie Position, Impressions und CTR erklären diesen Effekt nicht - weil die Antwort bereits in der SERP stattfindet und ein Klick für den Nutzer überflüssig wird. AAR trennt diesen strukturellen Effekt vom normalen SEO-Rauschen, indem die Formel über Q_norm saisonale und Query-Volumen-bedingte Schwankungen herausrechnet.

Formel

AAR = 1 − (CTR · Impr)_post / (CTR · Impr · Q_norm)_pre

Der Wertebereich liegt zwischen 0 (keine Absorption) und 1 (vollständige Absorption). Werte unter 0 zeigen Klickgewinn an - typischerweise wenn die eigene Domain als Quelle im AI Overview zitiert wird.

Anwendung in der Praxis

Für jede Query-Gruppe wird AAR monatlich berechnet. Benchmarks aus einer eigenen Audit-Kohorte von 500+ Enterprise-Domains:

Informational: AAR 0.28 - 0.41
Navigational (Brand-Queries): AAR < 0.10
Transactional: AAR 0.05 - 0.18

Strategisch dient AAR dem CMO-Reporting: Er zeigt, welcher Traffic-Rückgang durch strukturelle SERP-Veränderung entsteht - und welcher durch eigene Optimierungsdefizite. Ohne diese Trennung werden SEO-Teams fälschlich für extern verursachte Klickverluste verantwortlich gemacht.

Verwandt:AIO CTR-Drift Passage Ranking Zero-Click Search

Zur Tiefenanalyse →

AIO - AI Overviews

AIO

Generative Antwortsektion oberhalb der klassischen Suchergebnisse bei Google. Ersetzt für viele Query-Typen den ersten Klick durch eine direkt beantwortete Synthese mehrerer zitierter Quellen.

Warum AIO zentral geworden ist

Seit dem Rollout 2024/2025 erscheinen AI Overviews auf 40-65 % der informationalen Queries in den USA und zunehmend auch in DACH. Die Folge: die klassische SERP-Logik (10 blaue Links) löst sich auf. Google wählt aus mehreren Retrieval-Quellen eine kuratierte Antwort, die oft eine einzige „Hauptquelle" als Primärzitat bevorzugt - das Spiel hat sich von Ranking zu Auswahl verschoben.

Typische SERP-Struktur

AI-generierte Antwort (3-8 Sätze)
2-5 zitierte Quellen (Karussell rechts oder inline)
Klassische organische Links darunter
People-Also-Ask Box darunter oder seitlich

Optimierung

Die Aufnahme in AIO hängt primär von drei Faktoren ab: Passage-Level-Citability (präzise, in sich geschlossene Absätze), Entity-Klarheit (strukturierte Autor- und Organisations-Schemas) und semantische Kohäsion mit der Query-Intent. Reine Keyword-Dichte hat keinen direkten Effekt mehr.

Verwandt:AAR Passage Ranking SGE Citation Rate

Zur Detailseite → Zur Tiefenanalyse →

Applebot-Extended

Separater User-Agent, mit dem Apple Inhalte für KI-Trainingszwecke von Siri und Apple-Intelligence-Features crawlt - unabhängig vom klassischen Applebot für Web-Suche.

Warum die Trennung relevant ist

Wer Applebot-Extended blockt, wird nicht in Trainingsdaten zukünftiger Apple-Intelligence-Modelle auftauchen - bleibt aber in der klassischen Apple-Suche sichtbar. Die robots.txt-Entscheidung ist damit strategisch: Blocken schützt Content-IP, kostet aber Präsenz in einem der größten Consumer-Ökosysteme (~2 Mrd. aktive Apple-Geräte).

robots.txt Beispiel

User-agent: Applebot-Extended
Allow: /

Praxis

Für Publisher und B2B-Brands gilt in den meisten Fällen: offen lassen. Apple gibt (Stand 2026) keine direkte Attribution in Antworten aus - anders als Perplexity oder Bing Copilot - dafür aber potenziell hohe Passive-Reichweite über Siri-Empfehlungen. Die Alternative: blocken und stattdessen in gezielte Kooperationen mit Apple News Partner Program investieren.

Verwandt:Google-Extended GPTBot llms.txt

Zur Tiefenanalyse →

Attribution (im Zero-Click-Kontext)

Zuordnung von Umsatz oder Pipeline-Wert zu einem spezifischen Sichtbarkeits-Touchpoint - in der KI-Ära nicht mehr trivial, weil Klicks als Zwischenschritt oft wegfallen.

Warum klassische Attribution scheitert

Last-Click-Attribution setzt eine Klickkette voraus: User sieht Ergebnis → klickt → konvertiert. Wenn AI Overviews und ChatGPT Antworten direkt geben, sieht der User die Marke, klickt aber später ggf. direkt oder organisch über eine ganz andere Query. Die kausale Linie wird gekappt.

Modernes Attribution-Modell

Statt Klick-Causality wird Brand-Lift-through-AI gemessen: Wie verändert sich die Direct-Traffic-Rate, die Brand-Query-Frequenz und die Conversion-Rate nach einem dokumentierten AI-Mention-Peak? Das erfordert ein Kontrollzeitraum-Vergleichsmodell (Pre/Post mit 90-Tage-Fenster).

Praxis

Enterprise-Setups kombinieren GA4-Conversion-Daten mit CRM-Pipeline und einem AI-Visibility-Layer (eigene Prompt-Tracking-Dashboards). Die 90-Tage-Regel: Jede AI-Visibility-Intervention braucht mindestens 12 Wochen, bevor valide Attribution möglich ist. Kürzere Fenster erzeugen Noise.

Verwandt:PVI SoM Zero-Click

Zur Tiefenanalyse →

Buchstabe B

BM25 - Best Match 25

BM25

Klassischer Retrieval-Ranking-Algorithmus, basierend auf TF-IDF, der Relevanz über Term-Frequenz, Dokumentlänge und inverse Dokumenthäufigkeit berechnet - nach wie vor Baseline in modernen Hybrid-Retrieval-Systemen.

Warum BM25 noch zählt

Moderne LLM-Suchsysteme nutzen fast ausschließlich Hybrid Retrieval: Vector-basierte semantische Suche kombiniert mit BM25-basierter lexikalischer Suche. BM25 fängt exakte Begriff-Matches, die Vector-Embeddings oft verwässern - entscheidend für Produkt-Namen, Akronyme, Eigennamen. Wer nur für Embeddings optimiert, verliert BM25-gewichtete Treffer.

Formel (vereinfacht)

score(D,Q) = Σ IDF(qᵢ) · f(qᵢ,D)·(k₁+1)
             ─────────────────────────
             f(qᵢ,D) + k₁·(1 − b + b · |D|/avgdl)

Praktische Konsequenz

Keywords sind nicht tot - sie sind verlagert. In einem Hybrid-Retrieval-System sollte der exakte Fachbegriff im Titel, in der H1 und in mindestens einem frühen Absatz vorkommen, damit BM25 ihn findet. Der umgebende Absatz muss semantisch kohärent sein, damit Vector Search ihn als relevant einordnet. Beide Signale zusammen = Top-Treffer.

Verwandt:Vector Search Retrieval Scoring RAG

Brand Mention Density

Anteil relevanter KI-Antworten in einer definierten Prompt-Menge, in denen die eigene Marke erwähnt wird - mit oder ohne explizite Quellen-Zitation.

Warum diese Kennzahl neu ist

Im klassischen SEO gab es keine Entsprechung: Ein Ranking war entweder da oder nicht. In generativen Systemen kann eine Marke in der Antwort genannt werden, ohne verlinkt zu sein - oder umgekehrt zitiert, aber im Textfluss ungenannt. Density misst die tatsächliche narrative Präsenz, nicht nur formale Zitation.

Messmethode

Ein kuratiertes Prompt-Set (typisch 500-2.000 Prompts zu relevanten Queries der Branche) wird wiederholt über mehrere Modelle (GPT-4o, Claude, Gemini, Perplexity) abgefragt - meist 3-5 Durchläufe, um stochastische Varianz auszugleichen. Jede Antwort wird per NER-Pipeline auf Brand-Erwähnung geprüft und mit Sentiment-Klassifikation kombiniert.

Praxis

Gesunde Enterprise-Brands erreichen 15-30 % Density in ihrer Fach-Vertical. Werte unter 5 % deuten auf strukturelle Probleme in Entity-Signalen oder Content-Citability. Werte über 40 % sind in hart umkämpften Verticals extrem selten und meist Hinweis auf Prompt-Bias im Test-Set.

Verwandt:Citation Rate SoM PVI

Zur Tiefenanalyse →

Buchstabe C

Canonical Tag

HTML-Direktive (<link rel="canonical">), die Suchmaschinen signalisiert, welche URL die autoritative Version einer Seite ist - kritisch für Duplicate-Content-Handling und Entity-Konsolidierung.

Warum Canonicals in der KI-Ära wichtiger werden

LLMs aggregieren beim Retrieval oft mehrere Duplikate derselben Inhalte (www/non-www, http/https, Parameter-URLs). Ohne sauberes Canonical entsteht Entity-Fragmentierung: Die Knowledge-Graph-Zuordnung wird schwächer, weil Signal über mehrere URL-Varianten verteilt ist. Das schwächt Rankings und reduziert Citation-Wahrscheinlichkeit in AI Overviews.

Regeln

Jede Seite hat genau einen Canonical - absolut, inkl. Protokoll und www-Variante
Self-Canonical auf der primären URL (nicht auslassen)
Konsistent zu og:url, JSON-LD @id und sitemap.xml
Niemals auf Redirects oder 404s zeigen

Praxis

Häufigster Fehler: Canonical auf Nicht-www während Weiterleitung auf www geht - Konflikt-Signal. Zweitgrößter: Parameter-Canonicals (Filter-URLs) zeigen auf Hauptseite, obwohl Inhalte unterschiedlich. Dritter: fehlende Konsistenz zwischen HTML-Canonical und HTTP-Header-Canonical. Alle drei schwächen Entity-Authority massiv.

Verwandt:Schema.org hreflang

Zur Detailseite →

Citation Rate

Anteil der AI-generierten Antworten in einem Prompt-Set, in denen die eigene Domain als formale Quelle zitiert wird - mit Link, Snippet oder beidem.

Unterschied zu Brand Mention Density

Während Mention Density jede Nennung zählt (auch unzitierte), misst Citation Rate ausschließlich formale Quellenverweise. Eine Marke kann hohe Density haben, aber niedrige Citation Rate - wenn LLMs sie aus Trainingsdaten kennen, aber nicht als primäre Quelle zurückverlinken.

Benchmarks

Perplexity: 2-8 % Citation Rate auf Fach-Queries für Domain-Autoritäten
ChatGPT mit Search: 1-5 %
Google AI Overviews: 0.5-3 % für Top-Domains

Treiber

Citation wird begünstigt durch: aktueller Publication-Date (ISO-8601 in Schema), klare Autor-Entity, dedupliziertes Canonical, hohe Domain-Authority, passage-level strukturierte Inhalte (H2-geführte Antworten, Listen, FAQ). Gegen-Faktoren: JavaScript-Rendering, Login-Gates, unklare Publikationszeit.

Verwandt:Brand Mention Density Passage Ranking QUEST

Zur Tiefenanalyse →

Co-Occurrence (semantisch)

Das gemeinsame Auftreten zweier Entitäten oder Begriffe in demselben Text-Kontext - der zentrale Hebel, um Marken in LLM-Trainingsdaten mit Fachthemen assoziiert zu werden.

Warum Co-Occurrence LLM-Rankings dominiert

LLMs lernen keine expliziten „X ist Experte für Y"-Regeln - sie lernen statistische Muster: Wenn „Marke X" und „Thema Y" in denselben Korpora häufig gemeinsam erscheinen, entsteht im Embedding-Space eine Nähe, die bei Inferenz abgerufen wird. Co-Occurrence-Engineering ist das gezielte Platzieren der eigenen Marke in Kontexten, die in Trainingsdaten landen werden.

Kanäle mit hohem Co-Occurrence-Gewicht

Wikipedia und Wikidata (Tier-1-Trainingsquellen)
Fachportale und Branchen-Reports (hoch-zitiert)
Peer-reviewed Content, akademische Repositorien
Reddit, Stack Exchange (strukturierte Diskussions-Korpora)

Praxis

Konkret bedeutet das: nicht nur auf der eigenen Domain über Thema X schreiben - sondern gezielt dafür sorgen, dass die Marke in fremden, autoritativen Kontexten neben Thema X genannt wird (Gastbeiträge, Studien-Zitate, Expertenpanels). Eigendomain-Autorität allein reicht nicht.

Verwandt:Entity Embedding Space MSA

Zur Tiefenanalyse →

CTR-Drift

Systematische Veränderung der Click-Through-Rate auf einer Position, ausgelöst durch SERP-Strukturveränderungen (AI Overviews, Featured Snippets, People-Also-Ask) - ohne Änderung am eigenen Content.

Warum CTR-Drift gefährlich ist

Ein typisches Muster: Position 1 bleibt stabil, aber CTR fällt von 32 % auf 18 %. Klassische SEO-Dashboards interpretieren das als Optimierungsdefizit. Tatsächlich ist es ein strukturelles SERP-Signal - meist verursacht durch eine neu erscheinende AI-Antwort oberhalb des organischen Ergebnisses. Ohne Attribution-Layer wird der falsche Hebel bedient.

Detection-Methode

Monatlicher Abgleich von GSC-CTR (tatsächlich) gegen Standard-CTR-Modelle (erwartet). Abweichung > 15 % bei stabiler Position = CTR-Drift-Signal. Kombiniert mit SERP-Screenshot-Monitoring lässt sich die strukturelle Ursache (neue AIO, neues PAA-Element, neue Shopping-Integration) identifizieren.

Praxis

CTR-Drift ist messbar und isolierbar - aber nur mit Disziplin. Die Wochen-Reports klassischer SEO-Tools blenden den Effekt oft aus, weil sie auf aggregierte Domain-Metriken schauen. Drift tritt pro Query-Cluster auf und wird erst auf Passage-Ebene sichtbar.

Verwandt:AAR Zero-Click AIO

Zur Tiefenanalyse →

Buchstabe D

DefinedTerm Schema

Schema.org-Typ, der einen Fachbegriff als strukturierte Entität auszeichnet - zentraler Baustein, um Glossare für Suchmaschinen und LLMs maschinenlesbar zu machen.

Warum es in der KI-Ära wichtig ist

LLMs bevorzugen bei Definitions-Queries Inhalte, bei denen Begriff, Definition und thematischer Kontext strukturell entkoppelt sind - nicht in Fließtext vergraben. DefinedTerm mit expliziten Feldern termCode, name, description und inDefinedTermSet liefert dieses Signal direkt.

JSON-LD-Muster

{
  "@type": "DefinedTerm",
  "name": "AAR - AI Overview Absorption Rate",
  "termCode": "AAR",
  "description": "Kennzahl zur Messung ...",
  "inDefinedTermSet": "https://example.de/glossar#set"
}

Praxis

Ein kompletter Glossar sollte als DefinedTermSet ausgezeichnet sein, der einzelne DefinedTerm-Entitäten enthält. So wird das Glossar zur standalone-zitierbaren Knowledge-Ressource - nicht nur eine weitere Seite. Das verdoppelt typischerweise die Citation-Rate auf Definitions-Queries gegenüber einer unstrukturierten Version.

Verwandt:Schema.org Entity Knowledge Graph

Dwell Time

Zeitspanne zwischen Klick auf ein Suchergebnis und Rückkehr zur SERP - als Qualitätssignal umstritten, aber in KI-Retrieval-Systemen indirekt relevant über Engagement-Korrelationen.

Was Dwell Time wirklich bedeutet

Google und andere Suchmaschinen bestreiten offiziell die direkte Verwendung, nutzen aber User-Engagement-Signale in Satellite-Modellen (Navboost, Quality Rating). Für GEO gilt: Content mit hoher Dwell Time korreliert mit Struktur, Tiefe und Lesbarkeit - genau die Eigenschaften, die auch LLM-Citation-Rate treiben.

Treiber guter Dwell Time

Early-Answer-Prinzip: Kernthese in den ersten 100 Wörtern
Visuelle Segmentierung: klare H2/H3-Struktur
Scannable: Listen, Tabellen, Hervorhebungen
Interne Querverweise, die Deep-Reading ermöglichen

Praxis

Dwell Time ist keine Optimierungs-Metrik, sondern ein Symptom guter Inhalte. Wer Dwell direkt zu optimieren versucht (längere Texte, erzwungenes Scrollen), produziert schlechteren Content. Wer für Information-Scent optimiert, bekommt beides: bessere Metriken und bessere Citations.

Verwandt:E-E-A-T Helpful Content Update

Buchstabe E

E-E-A-T

Experience, Expertise, Authoritativeness, Trustworthiness - Googles Rahmen für Qualitätsbewertung von Inhalten, besonders relevant für YMYL-Themen (Your Money, Your Life).

Die vier Dimensionen

Experience: Hat der Autor direkte Erfahrung mit dem Thema?
Expertise: Hat der Autor nachweisbare Qualifikationen?
Authoritativeness: Wird die Quelle von anderen Autoritäten referenziert?
Trustworthiness: Ist die Seite transparent (Impressum, Autor, Quellen)?

Warum E-E-A-T in der KI-Ära noch wichtiger wird

LLM-Antworten brauchen verlässliche Quellen. Google und Retrieval-Systeme bevorzugen Content mit klaren Autor-Entities, transparenten Publikationsmetadaten und dokumentierter Expertise - genau die E-E-A-T-Dimensionen. Eine Domain ohne klaren Autor-Footprint wird in AI Overviews kaum noch zitiert, unabhängig von klassischen Ranking-Faktoren.

Operative Umsetzung

Autor-Schema (Person mit jobTitle, sameAs, alumniOf), Publisher-Schema, About- und Contact-Seiten, explizite Methodik-Statements bei Studien, Quellen-Links bei Behauptungen. Die Summe dieser Signale erzeugt den E-E-A-T-Fingerprint, den sowohl Google als auch LLMs lesen.

Verwandt:Entity Schema.org ORM

Zur Detailseite → Zur Tiefenanalyse →

Embedding Space

Hochdimensionaler Vektorraum (typisch 768-4.096 Dimensionen), in dem LLMs und Retrieval-Systeme Texte, Entitäten und Konzepte als mathematische Koordinaten abbilden - der Raum, in dem semantische Ähnlichkeit gemessen wird.

Wie Embeddings die Suche verändert haben

Klassische Suche arbeitet mit String-Matching (BM25, TF-IDF). Moderne Systeme transformieren Query und Dokument in Vektoren - semantisch ähnliche Texte landen nah beieinander, auch ohne gemeinsame Wörter. „SUMAX Dortmund" und „SEO-Agentur Ruhrgebiet" können im Embedding-Space näher sein als zwei identische Wortketten, wenn der Kontext konsistent ist.

Distanzmaße

Cosine Similarity (häufigstes Maß)
Euclidean Distance
Dot Product (bei normalisierten Vektoren)

Praxis-Konsequenz

Optimierung verschiebt sich von „ich nutze dieses Keyword" zu „ich positioniere meine Entität in der richtigen Embedding-Region". Das bedeutet: Begleitthemen sauber co-occurren lassen, semantisch benachbarte Fachbegriffe zitieren, Autor-Entities konsistent über Domains verlinken. Reine Keyword-Density wirkt in diesem Raum fast nicht mehr.

Verwandt:Vector Embedding Vector Search Co-Occurrence

Zur Tiefenanalyse →

Entity (Schema.org)

Eine eindeutig identifizierbare Einheit (Person, Organisation, Ort, Werk, Produkt) im Knowledge Graph - versehen mit stabiler ID, Eigenschaften und Beziehungen zu anderen Entitäten.

Warum Entities SEO neu definieren

Google und LLMs ranken nicht mehr primär Seiten, sondern Entities. Eine Seite über „Murat Ulusoy" hat Wert, wenn die Entität selbst im Knowledge Graph verankert ist - mit Wikidata-ID, konsistenten sameAs-Links, strukturierten Meta-Daten. Ohne Entity-Verankerung bleibt Content ein isoliertes Dokument ohne Knowledge-Graph-Gewicht.

Entity-Konsolidierungs-Checkliste

Eindeutige @id im JSON-LD (absolut, mit Fragment)
sameAs zu Wikidata, LinkedIn, Crunchbase, Branchenverzeichnissen
Konsistente Namensvariation (kein Mix aus „Murat U." und „Herr Ulusoy")
Cross-Domain-Konsistenz (eigene Site, Firmenseite, Agentur-Profil identisch)

Praxis

Entity-Aufbau braucht Zeit - typisch 6-12 Monate, bis eine frisch verankerte Person-Entity in LLM-Embeddings stabil repräsentiert ist. Ohne Wikidata-Entry ist der Hebel deutlich schwächer. Wikipedia ist für die meisten Praktiker nicht erreichbar (Relevanz-Kriterien), Wikidata dagegen für jede geschäftlich aktive Person zugänglich.

Verwandt:Knowledge Graph Schema.org NER

Zur Detailseite → Zur Tiefenanalyse →

Buchstabe G

GEO - Generative Engine Optimization

GEO

Disziplin, die Inhalte, Entitäten und technische Infrastruktur so optimiert, dass generative Suchsysteme (ChatGPT, Perplexity, Claude, Gemini, Google AI Overviews) die eigene Marke als Quelle auswählen und zitieren.

Abgrenzung zu klassischem SEO

SEO optimiert für Ranking-Positionen - wo erscheint eine Seite im Ergebnis. GEO optimiert für Inferenz - wie wahrscheinlich ist es, dass ein LLM meine Quelle bei einer Antwort auswählt. Beide Disziplinen überlappen teilweise (technische SEO, Content-Qualität), aber GEO hat eigene Hebel: Passage-Citability, Entity-Konsistenz, Trainingsdaten-Präsenz.

Die drei zentralen Hebel

Entity Clarity: maschinenlesbare Identität der Marke
Semantic Co-Occurrence: Präsenz in Fach-Kontexten der Trainingsdaten
Trust Density: verifizierbare Authority-Signale (E-E-A-T)

Warum GEO eigene Disziplin ist

Eine Agentur, die „GEO als Add-On" verkauft ohne die Retrieval-Mechanik zu verstehen, produziert meist nur neue Blog-Posts. GEO erfordert Verständnis der Inference-Pipeline: wie Retrieval gewichtet, wie Relevance Scores entstehen, welche Quellen in Trainingsdaten landen. Ohne das bleibt GEO Buzzword.

Verwandt:LLM-SEO RAG Prompt-Level SEO

Zur Detailseite → Zur Tiefenanalyse →

Google-Extended

Separater User-Agent, mit dem Google Inhalte für das Training generativer Modelle (Bard, Gemini, Search Generative Experience) crawlt - getrennt vom klassischen Googlebot für die Web-Suche.

Die strategische Entscheidung

Google-Extended blocken = Schutz vor KI-Training, aber Ausschluss aus zukünftigen Gemini-Generationen. Erlauben = potenzielle Zitate in AI Overviews, aber auch Risiko, dass Content ohne direkte Gegenleistung in Trainingsdaten landet. Die Entscheidung ist geschäftsmodell-abhängig.

robots.txt-Pattern

User-agent: Google-Extended
Allow: /

Praxis

Publisher mit Paywall blocken häufig Google-Extended, um Trainingsnutzung zu verhindern. B2B-Unternehmen und Service-Anbieter erlauben fast ausnahmslos, weil der Citation-Upside den IP-Nachteil überwiegt. Kritisch: Google-Extended hat laut Google-Dokumentation KEINEN Einfluss auf klassische Google-Suche-Rankings - die Trennung ist echt.

Verwandt:GPTBot Applebot-Extended llms.txt

Zur Detailseite → Zur Tiefenanalyse →

GPTBot

OpenAI's Web-Crawler, der Inhalte für das Training zukünftiger GPT-Modelle sammelt - der wichtigste und am häufigsten betrachtete KI-Crawler in der heutigen Infrastruktur-Entscheidung.

Status-Code 429 - die stille Falle

Viele WAFs (Web Application Firewalls) und Rate-Limiter antworten GPTBot mit HTTP 429 Too Many Requests statt einer sauberen 200/403. Das ist problematisch: 429 signalisiert OpenAI „versuche es später" - und der Crawler kommt oft monatelang nicht zurück. Ergebnis: Die Domain fehlt in Trainingsdaten, obwohl sie technisch erreichbar wäre.

Check-Liste

robots.txt prüfen: Allow oder Disallow?
Cloudflare/WAF-Rules: GPTBot whitelist setzen
Server-Logs auswerten: wie oft kommt GPTBot, mit welchem Status-Code?
Crawl-Delay: nicht nötig bei OpenAI, verlangsamt nur den Trainings-Zyklus

Praxis

Die meisten Enterprise-Setups haben GPTBot versehentlich blockiert - nicht durch Absicht, sondern durch aggressive Security-Standard-Regeln. Ein einziger Log-Check in zweistelliger Minute deckt das auf. Kritisch: GPTBot ≠ ChatGPT-User (Live-Browsing) ≠ OAI-SearchBot - alle drei müssen separat gehandhabt werden.

Verwandt:Google-Extended Applebot-Extended llms.txt

Zur Detailseite → Zur Tiefenanalyse →

Buchstabe H

Helpful Content Update

Google-Algorithmus-System (seit 2022), das Inhalte mit erkennbar mangelndem Nutzerwert systematisch abwertet - mit signifikantem Effekt auf Domains mit generischer, KI-generierter oder thin-content-Produktion.

Was als „helpful" gilt

Nach Googles eigener Definition: Inhalte, die eine Person mit Fachwissen für eine menschliche Zielgruppe geschrieben hat, nicht primär für Ranking-Optimierung. Unhelpful-Signale: Content ohne klare Zielgruppe, summierte Informationen ohne eigene Erkenntnisse, reine Aggregation öffentlicher Quellen, Keyword-Stuffing.

Operative Markers

Klare Autoren-Entity mit Fachprofil
Originäre Daten, Zitate, Case-Studies
Präzise Antwort-Tiefe (nicht Wort-Polster)
Interne Themenkohärenz (Topical Authority)

Praxis

Das Update hat in 2023/2024 ganze Content-Farmen durchgeschüttelt: Domains, die tausende KI-generierte Artikel publiziert hatten, verloren teilweise 80-95 % organischer Sichtbarkeit binnen Wochen. Die Recovery-Strategie ist selten schnell - meist 6-12 Monate gezielter Content-Bereinigung und neuer E-E-A-T-Signale.

Verwandt:E-E-A-T Topical Authority

Zur Detailseite →

hreflang

HTML-Attribut (oder HTTP-Header), das Suchmaschinen signalisiert, welche Sprach- und Länder-Version einer Seite für welches Publikum ausgeliefert werden soll - kritisch für internationale SEO und Cross-Language-Entity-Konsolidierung.

Typische Fehler

Einseitige hreflang-Referenzen (Seite A zeigt auf B, B zeigt nicht zurück)
Falsche Sprach-/Länder-Codes (en-UK statt en-GB)
hreflang auf nicht-kanonische URLs
Fehlendes x-default für globale Fallback-Variante

GEO-Relevanz

In multilingualen Setups hält hreflang die Entity-Identität über Sprachgrenzen hinweg stabil. Ohne saubere hreflang-Verknüpfung entstehen für LLMs fragmentierte Entities („die deutsche Marke X" vs. „die englische Marke X" als getrennte Knoten). Das schwächt Cross-Language-Sichtbarkeit massiv.

Praxis

In Enterprise-Setups mit 15+ Sprachen ist hreflang oft der Flaschenhals. Standard-Tool-Audits finden meist 20-40 % defekte Verknüpfungen. Die Reparatur ist monoton, aber wirkungsstark - oft zweistelliger Traffic-Gewinn im Betroffenen-Cluster binnen 8-12 Wochen.

Verwandt:Canonical MVG

Zur Detailseite → Zur Tiefenanalyse →

Buchstabe K

Knowledge Graph

Strukturierte Wissensdatenbank, in der Entitäten (Personen, Orte, Konzepte, Organisationen) als Knoten mit typisierten Beziehungen verbunden sind - das Fundament, auf dem Google und LLMs semantische Antworten generieren.

Googles Knowledge Graph vs. generischer KG

Googles Knowledge Graph zieht primär aus Wikipedia, Wikidata, CIA World Factbook und verifizierten Open-Data-Sources. LLM-interne Knowledge Graphs sind implizit, in Embeddings kodiert. Beide profitieren von denselben Signalen: klare Entity-IDs, konsistente sameAs-Verknüpfungen, saubere Schema.org-Auszeichnung.

Wie man Entities in den KG bringt

Wikidata-Entry erstellen (Primärquelle)
Schema.org auf eigener Domain mit konsistenter @id
sameAs zu allen autoritativen Profilen (LinkedIn, Crunchbase, Branchenbücher)
Zitationen von Domains, die selbst im KG stehen

Praxis

Eine frisch angelegte Wikidata-Entity wird in der Regel binnen 2-4 Wochen in Googles KG sichtbar - vorausgesetzt, sie überlebt die Wikidata-Relevanzprüfung. Für Personen genügt meist eine verifizierte Berufsrolle und ≥2 unabhängige Referenz-Links.

Verwandt:Entity Knowledge Panel Schema.org

Zur Detailseite →

Knowledge Panel

Sichtbare Darstellung einer Knowledge-Graph-Entity rechts neben den Suchergebnissen - Kompaktprofil mit Name, Bild, Kurz-Beschreibung und verknüpften Eigenschaften.

Warum das Panel strategisch wichtig ist

Das Knowledge Panel ist der sichtbarste Beweis, dass Google eine Marke oder Person als eigenständige Entität anerkennt. Ohne Panel fehlt bei Brand-Queries oft der „Anker" - der User sieht nur generische Links. Mit Panel verdoppelt sich typischerweise die Brand-CTR und die Direct-Traffic-Rate im Nachfolgequartal.

Voraussetzungen

Konsolidierte Entity im Knowledge Graph
Konsistente Informationen über mehrere Quellen
Oft: Wikipedia-Eintrag als Katalysator (nicht Pflicht)
Verifizierung via Google Business Profile oder Claim-Prozess

Praxis

Claim-Verifizierung (über Google Search Console + Suggest-Edit-Flow) gibt den Entity-Eigner direkte Kontrolle über Korrekturen und sameAs-Links im Panel. Wer das nicht macht, überlässt die Panel-Pflege Drittquellen - mit dem Risiko falscher oder veralteter Darstellung.

Verwandt:Knowledge Graph Entity

Zur Detailseite →

Buchstabe L

LLM-SEO

Oberbegriff für die Optimierung von Inhalten, Entitäten und Infrastruktur auf die Indexierung, Einbettung und Zitation durch Large Language Models - umfasst GEO, Entity-Engineering und Retrieval-Optimierung.

Drei Ebenen

Training Data Layer: Wie kommt mein Content in zukünftige Model-Trainings?
Retrieval Layer: Wie wird mein Content bei Echtzeit-Abfragen ausgewählt?
Inference Layer: Wie wird mein Content in der generierten Antwort verwendet?

Warum diese Trennung wichtig ist

Training-Layer-Erfolg ist langfristig (6-24 Monate) und baut auf historischer Präsenz. Retrieval-Layer wirkt kurzfristig (Tage/Wochen) und ist technisch steuerbar. Inference-Layer ist stochastisch - selbst identische Content-Signale führen zu unterschiedlichen Antworten je nach Modell und Prompt. Jede Ebene hat eigene Hebel und Messsysteme.

Praxis

Die meisten „LLM-SEO"-Beratungen operieren nur auf der Retrieval-Ebene (Schema, Sitemap, robots.txt). Das deckt 30-40 % der Wirkung ab. Die restlichen 60-70 % liegen im Training- und Inference-Layer - genau dort, wo strategische Arbeit notwendig ist und oft unsauber kommuniziert wird.

Verwandt:GEO RAG Prompt-Level SEO

Zur Detailseite → Zur Tiefenanalyse →

llms.txt

Proposed-Standard-Datei im Website-Root, die KI-Crawlern eine kuratierte, semantisch angereicherte Sicht auf die wichtigsten Inhalte liefert - vergleichbar mit robots.txt und sitemap.xml, aber für LLM-Konsumenten.

Was llms.txt leistet

Während sitemap.xml alle URLs listet und robots.txt Zugriff steuert, fasst llms.txt die strategisch wichtigen Inhalte mit Kontext zusammen: Autor-Entity, Kern-Frameworks, Schlüsseldokumente, Zitations-Richtlinien. LLMs, die die Datei interpretieren können, bekommen so eine kuratierte Einstiegs-Sicht.

Muster-Struktur

# Site Name
> Tagline / Kern-Proposition

## Author
- [Name](url): Rolle, Schwerpunkte

## Key Frameworks
- [Framework](link): Formel / Kern-Idee

## Articles
- [Title](link): Kurz-Abstract

Praxis

llms.txt ist (Stand 2026) kein offizieller W3C-Standard - aber von zunehmend mehr Retrieval-Systemen respektiert. Die Early-Adopter-Kosten sind trivial (eine Datei, ~200 Zeilen) und der Upside ist konkret: kontrollierte Narrative-Darstellung gegenüber generischen Crawl-Parsings.

Verwandt:GPTBot Google-Extended

Zur Detailseite → Zur Tiefenanalyse →

Buchstabe M

MSA - Multi-Source Agreement

MSA

Maß für die inhaltliche Konsistenz, mit der eine Entität über verschiedene autoritative Quellen im Web dargestellt wird - einer der stärksten Einflussfaktoren für LLM-Citation-Wahrscheinlichkeit.

Warum MSA entscheidend ist

LLMs gewichten Informationen höher, wenn mehrere unabhängige Quellen dieselbe Aussage stützen. Widerspricht die eigene Website der Wikipedia-Darstellung, widerspricht das Linkedin-Profil der About-Seite der Firmenwebsite, entsteht Unklarheit - und die Entity verliert Gewicht in der Inference.

Messmethode

Über die Top-20 Google-Ergebnisse und Top-5 Wikidata/Wikipedia-Verweise wird ein Kern-Attribut-Set definiert (jobTitle, location, area of expertise, alumni of). MSA-Score = Anteil der Quellen, die sich in mindestens 80 % der Attribute einig sind. Werte unter 70 % indizieren kritische Inkonsistenz.

Praxis

Typische Problemzonen: veraltete Impressen in alten PR-Portalen, widersprüchliche Titel auf LinkedIn vs. XING vs. Firmenseite, unterschiedliche Rollen-Bezeichnungen („CEO" vs. „Geschäftsführer" vs. „Founder"). Konsolidierung dauert 2-6 Monate - kostet aber oft nichts außer Disziplin.

Verwandt:Entity RDI E-E-A-T

Zur Tiefenanalyse →

MVG - Multilingual Visibility Gap

MVG

Prozentuale Lücke zwischen der KI-Sichtbarkeit einer Marke in ihrer stärksten Sprache (meist Englisch) und einer Ziel-Sprache - Frühwarnindikator für strukturelle Multilingual-Defizite.

Formel

MVG(L_target, L_base) = (SoM(L_base) − SoM(L_target)) / SoM(L_base) × 100

Interpretation

MVG = 0 bedeutet gleiche Sichtbarkeit in beiden Sprachen. MVG = 100 bedeutet: in der Ziel-Sprache praktisch unsichtbar, obwohl in der Basis-Sprache stark vertreten. Die Korpus-Asymmetrie (englische Trainingsdaten dominieren mit 45-65 % Gewicht) macht hohe MVG-Werte strukturell wahrscheinlich.

Ausgleich - Korpus-Kompensation

Um in kleineren Sprachmärkten gleiche Sichtbarkeit zu erzielen, braucht es disproportional mehr Content-Signale. Faustwerte pro Sprachmarkt:

Deutsch: Faktor 3,2× gegenüber Englisch
Türkisch: Faktor 7,8×
Spanisch: Faktor 2,1×
Arabisch: Faktor 5,4×

Verwandt:SoM hreflang

Zur Tiefenanalyse →

Buchstabe N

NER - Named Entity Recognition

NER

NLP-Technik, die in unstrukturiertem Text benannte Entitäten (Personen, Orte, Organisationen, Produkte) automatisch erkennt und klassifiziert - Grundlage für Entity-Extraction, Brand-Monitoring und Co-Occurrence-Analyse.

Typische Entity-Klassen

PERSON (Personen)
ORG (Organisationen)
GPE (Geo-Political Entities, Orte)
PRODUCT (Produkte)
EVENT (Ereignisse)
WORK_OF_ART (Werke)

Warum NER in der GEO-Arbeit zentral ist

Wer Mention-Tracking oder Co-Occurrence-Analyse sinnvoll betreiben will, braucht NER-Pipelines. Manuelle Prüfung skaliert nicht über mehr als ~100 Prompts. Moderne NER-Modelle (spaCy, BERT-basiert, neuere LLM-basierte Extraktoren) erreichen 90-96 % F1 auf Standardtests - genau genug für aggregierte Monitoring-Zwecke.

Praxis

Die Tool-Wahl entscheidet: Closed-Source-Cloud-APIs (Google Cloud Natural Language) liefern schnellen Start, aber Datenschutz-Fragen bei sensiblen Queries. Open-Source (spaCy, Flair) braucht mehr Setup, lässt sich aber lokal fahren und feinjustieren - bei seriösem GEO-Consulting meist die bessere Wahl.

Verwandt:Entity Brand Mention Density

Buchstabe O

ORM - Online Reputation Management

ORM

Systematische Steuerung der Signale, die Google, Bing und LLMs bei Brand-Queries verarbeiten - Review-Distribution, Sentiment-Monitoring, Authority-Content-Seeding, E-E-A-T-Architektur.

Warum ORM in der KI-Ära neu gerahmt werden muss

Klassisches ORM arbeitete mit der SERP: Negativ-Ergebnisse verdrängen, Positiv-Content pushen. In der LLM-Ära kommt Sentiment-Drift in Trainingsdaten dazu: Ein viraler Negativ-Thread kann die Markendarstellung in ChatGPT 60+ Tage verzerren - lange nachdem Google bereits wieder neutral crawlt.

Moderne ORM-Architektur

Sentiment-Monitoring über Brand-Queries in GPT, Claude, Gemini, Perplexity
RDI-Tracking (Reputation Drift Index) als Frühwarn-Kennzahl
Strukturierter Authority-Content auf Tier-1-Quellen (Wikipedia, Wikidata, Reuters)
Crisis-Playbook: Containment → Narrative-Reinforcement → Entity-Reframing

Praxis

Ein gut strukturiertes ORM-Setup erkennt Reputationsrisiken 4-12 Wochen vor dem klassischen Google-Trends-Signal. Das Zeitfenster ist entscheidend: Crisis-Containment in Woche 2 kostet einen Bruchteil dessen, was Woche 10 kostet, wenn das Narrative bereits in Trainingsdaten gewandert ist.

Verwandt:RDI E-E-A-T Entity

Zur Tiefenanalyse →

Buchstabe P

Passage Ranking

Bewertung und Auswahl von einzelnen Textpassagen innerhalb eines Dokuments - nicht des ganzen Dokuments - als Antwort auf eine Query. Zentrale Retrieval-Mechanik moderner Suchmaschinen und generativer Systeme.

Warum Passage > Page

Klassische Suche: ein Dokument rankt, User klickt, findet irgendwo im Text die Antwort. Moderne Suche: eine spezifische Passage (3-5 Sätze) wird als direkte Antwort extrahiert und - bei AI Overviews - paraphrasiert. Der Rest des Dokuments ist irrelevant für diese eine Query.

Citability-Kriterien einer Passage

Standalone verständlich (kein Kontext-Vorwissen nötig)
Unter 600 Zeichen (LLM-Context-Fenster-freundlich)
Klare Kernaussage, idealerweise als erster Satz
Unambiguous (keine Konjunktiv-Weichmacher)
Entity-dicht (Fachbegriffe, benannte Referenzen)

Praxis

Eine einzige gut gebaute Passage kann einem mittelmäßigen Artikel Citation-Rate-Boost verschaffen. Umgekehrt: selbst hervorragende Domains bleiben unzitiert, wenn Content nur in fließendem Essay-Stil geschrieben ist ohne passage-level Zugriff.

Verwandt:QUEST Citation Rate AIO

Zur Detailseite → Zur Tiefenanalyse →

PVI - Prompt Visibility Index

PVI

Zusammengesetzter Score, der die Sichtbarkeit einer Marke in einer Prompt-Klasse messbar macht - kombiniert Mention-Rate, Position in der Antwort und Sentiment zu einer einzigen steuerbaren Kennzahl.

Formel

PVI_prompt = 0.5 · Mention + 0.3 · Position + 0.2 · Sentiment

Mention: 0 oder 1 (Brand wird erwähnt oder nicht)
Position: 0 bis 1, je früher in der Antwort, desto höher
Sentiment: −1 bis +1 (neutral=0), auf [0,1] normalisiert

Aggregation

PVI wird pro Prompt berechnet und dann über das gesamte Prompt-Set gemittelt. Branchen-Benchmark für KI-Sichtbarkeits-gezielte Enterprise-Brands: 0.35-0.55. Unter 0.15 = strukturelles Problem. Über 0.7 in breitem Prompt-Set = statistisches Artefakt oder Prompt-Bias.

Praxis

PVI ist das generative Gegenstück zum klassischen Ranking-Position-Tracking. Wochen-Messung erlaubt Trend-Detection, Monats-Delta zeigt Effekt von Interventionen. In Reportings ersetzt PVI oft die verwirrende „irgendwo erscheint unsere Marke"-Aussage durch eine konkret steuerbare Zahl.

Verwandt:SoM Brand Mention Density Citation Rate

Zur Tiefenanalyse →

Prompt-Level SEO

Optimierungs-Disziplin, die Inhalte gezielt für die Reproduktion in generativen LLM-Antworten konstruiert - mit Fokus auf Quotable Claims, Entity-dichte Passagen und Cross-Model-Konsistenz.

Kernidee

Klassisches SEO optimiert dafür, gefunden zu werden. Prompt-Level SEO optimiert dafür, paraphrasiert und zitiert zu werden. Das sind verwandte, aber nicht identische Ziele. Eine Seite kann auf Position 1 ranken und trotzdem nie in AI-Antworten auftauchen - weil die Passage nicht citable ist.

Kern-Heuristiken

QUEST-Heuristik (Quotable, Unambiguous, Entity-rich, Standalone, Timestamped)
Cross-Model-Audit (Konsistenz über GPT, Claude, Gemini, Perplexity)
Citation Target Playbook (5 Asset-Klassen für gezielte Zitate)

Praxis

Prompt-Level SEO ist nicht Content-Masse - es ist Content-Chirurgie. Wenige, aber extrem gut gebaute Passagen schlagen dutzende mittelmäßige Seiten. Die Investition pro Passage ist hoch (oft 4-8h Arbeit für einen 400-Wörter-Block), der Ertrag aber asymmetrisch.

Verwandt:QUEST Passage Ranking Citation Rate

Zur Tiefenanalyse →

Buchstabe Q

QUEST-Heuristik

QUEST

Fünf-Kriterien-Heuristik zur Prüfung, ob eine Textpassage von LLMs bevorzugt als Zitat verwendet wird - operativer Schnell-Check in der Prompt-Level-SEO-Arbeit.

Die fünf Kriterien

Quotable - eigenständig zitierbar, nicht auf umgebenden Kontext angewiesen
Unambiguous - präzise Formulierung, keine Konjunktiv-Weichmacher
Entity-rich - benannte Fachbegriffe, Personen, Orte, Kennzahlen
Standalone - maximal 3-4 Sätze, komplett ohne Rückverweise
Timestamped - datiert, versioniert, klar publikations-zugeordnet

Anwendung

Jede Kern-Passage wird gegen die fünf Kriterien geprüft. Eine Passage, die 4/5 erfüllt, ist citable. 3/5 ist Grenzfall. Unter 3 Kriterien = umschreiben. Die Heuristik ersetzt keine Retrieval-Analyse, aber sie fängt 80 % der häufigsten Fehler vor der Publikation ab.

Praxis

Typische Verletzungen im echten Content: Unambiguous fehlt fast immer („könnte", „eventuell", „oft"); Timestamped wird vergessen (keine ISO-Datums-Schema); Standalone scheitert an Verweis-Phrasen („wie oben erwähnt", „siehe Kapitel 3"). Diese drei Korrekturen erhöhen Citation-Wahrscheinlichkeit auf Passage-Ebene spürbar.

Verwandt:Passage Ranking Prompt-Level SEO

Zur Tiefenanalyse →

Buchstabe R

RAG - Retrieval-Augmented Generation

RAG

Architekturmuster, in dem ein LLM vor der Antwort-Generierung live externe Quellen (Vector-DB, Web-Search, interne Dokumente) abruft und die Retrievalergebnisse in den Prompt injiziert.

Warum RAG die AI-Suche dominiert

Reine LLM-Antworten haben zwei Limits: Wissensstand (Cutoff-Date) und Halluzinationen. RAG löst beide - das Modell generiert auf Basis aktueller, geprüfter Retrieval-Chunks. Jedes moderne AI-Suchsystem (Perplexity, Google AIO, ChatGPT Search, Bing Copilot) nutzt RAG.

Pipeline-Stufen

Query-Processing (Umschreibung, Expansion)
Retrieval (BM25 + Vector Search, hybrid)
Re-Ranking (Relevanz-Score, Authority-Score)
Context-Injection (Top-K Chunks in Prompt)
Generation (LLM antwortet mit Zitationen)

Praxis-Konsequenz

Für GEO-Optimierung bedeutet RAG: Der eigene Content muss an allen vier Stufen funktionieren - nicht nur gefunden (Retrieval) werden, sondern hoch gerankt (Re-Ranking), klar in Chunks aufteilbar (Context) und direkt zitierbar (Generation). Lücken an einer Stelle killen die gesamte Kette.

Verwandt:Vector Search BM25 Retrieval Scoring

Zur Tiefenanalyse →

RDI - Reputation Drift Index

RDI

Aggregierter Score zwischen −100 und +100, der die Sentiment-Verschiebung einer Marke über LLM-Quellen misst - gewichtet nach Quellen-Autorität und Detektions-Konfidenz.

Formel

RDI = (Σ (s · w · c)) / (Σ w) × 100

s: Sentiment-Score pro Mention, Wertebereich [−1, +1]
w: Quellen-Gewicht (Tier-1 = 10, Tier-2 = 5, Tier-3 = 2)
c: Detektions-Konfidenz [0, 1]

Interpretation

RDI > +30 = starke positive Markendarstellung. RDI zwischen −10 und +10 = neutral. RDI < −20 = akute Reputations-Drift, Handlungsbedarf. Die Richtung (Delta zum Vorquartal) ist oft wichtiger als der Absolutwert: ein Abfall von +25 auf +5 innerhalb eines Quartals ist ein stärkeres Warnsignal als ein stabiles RDI von 0.

Praxis

Bei einem dokumentierten B2B-Mittelstand-Mandat stieg RDI binnen 26 Wochen von −47 auf +34 - durch konsequente Containment-Strategie, Narrative-Reinforcement in Tier-1-Quellen und Entity-Reframing. Die entscheidende Mechanik: nicht Löschen, sondern Überschreiben mit autoritativer Alternative.

Verwandt:ORM MSA E-E-A-T

Zur Tiefenanalyse →

Retrieval Scoring

Numerische Bewertung, mit der ein Retrieval-System entscheidet, welche Dokumente in den Kontext eines LLM-Prompts injiziert werden - kombiniert mehrere Signale zu einem einzigen Score pro Kandidat.

Typische Score-Komponenten

score = α·sim(q,p) + β·auth(d) + γ·ent(e,q) + δ·fresh(t)

sim(q,p): semantische Ähnlichkeit Query↔Passage (Vector)
auth(d): Domain-Autorität
ent(e,q): Entity-Match Stärke
fresh(t): Publikations-Frische

Warum Verständnis dieser Mechanik wichtig ist

GEO-Consulting ohne Retrieval-Scoring-Verständnis läuft blind. Wer nur „gute Inhalte" produziert, aber nicht weiß, dass Freshness (δ) in Perplexity 30 % Gewicht hat, versteht nicht, warum ein neuer, mittelmäßiger Artikel einen perfekten, 18-Monate-alten schlägt.

Praxis

Die konkreten Gewichte (α, β, γ, δ) unterscheiden sich pro System und sind proprietär. Aber die Struktur ist konsistent. Optimierung arbeitet an allen vier Hebeln simultan: Passage-Semantik, Domain-Authority-Signale, Entity-Klarheit, Publication-Freshness. Monokultur auf einem Hebel unterperformt.

Verwandt:RAG BM25 Vector Search

Zur Tiefenanalyse →

Buchstabe S

Schema.org

Gemeinschaftlich gepflegtes Vokabular für strukturierte Daten im Web - der De-facto-Standard, den Google, Bing, Yandex und zunehmend LLM-Retrieval-Systeme zur Entitäten-Erkennung verwenden.

Zentrale Typen für GEO

Person, Organization: Entity-Grundlage
Article, BlogPosting: Publikations-Metadaten
FAQPage, HowTo: direkt AIO-optimiert
DefinedTerm, DefinedTermSet: Glossare
ProfessionalService, LocalBusiness: B2B/Local

Wichtigste Implementation-Regel

JSON-LD über Microdata/RDFa. JSON-LD ist trennbar vom DOM, leichter zu pflegen, weniger fehleranfällig. Google selbst empfiehlt JSON-LD explizit. Inline-Microdata im HTML gilt als Legacy.

Praxis

Die häufigsten Fehler im Audit: fehlende @id (Entity nicht verankerbar), ungültige Datums-Formate (nicht ISO 8601), zirkuläre sameAs-Referenzen, Schema-Typ passt nicht zum Content (FAQPage auf einer Landingpage). Google Rich Results Test erkennt etwa 60 % dieser Probleme - für die restlichen 40 % braucht es strukturelle Audits.

Verwandt:Entity DefinedTerm Knowledge Graph

SGE - Search Generative Experience

SGE

Googles ursprüngliche Bezeichnung für die generative Antwortsektion in der Suche (2023-2024 als Beta), inzwischen produktiv ausgerollt als „AI Overviews". Der Begriff SGE ist historisch, wird aber im Fachkontext weiterverwendet.

Abgrenzung

SGE = die Beta-Phase. AI Overviews = die produktive Version. Die Engine-Architektur ist identisch - der Namenswechsel markiert den Produktivbetrieb und die breite Ausrollung in US, UK, Europa. In technischen Diskussionen und Studien wird SGE oft als Synonym genutzt.

Wichtige Entwicklungsstufen

Mai 2023: SGE-Beta-Launch in Search Labs
Mai 2024: AI Overviews Rollout in US
Q1 2025: Europäische Expansion (inkl. DACH)
Q3 2025: Integration in mobile SERPs

Praxis

Die Messmethodik für SGE/AIO ist in beiden Namenskontexten identisch: AAR, Citation Rate, Mention Density. Wer ältere Studien liest, sollte SGE mental als AIO interpretieren.

Verwandt:AIO AAR

Zur Tiefenanalyse →

Semantic Search

Suchparadigma, das Intent und semantische Bedeutung - nicht nur Keyword-Matches - für Relevanz-Bewertung nutzt. Grundlage aller modernen Retrieval-Systeme seit BERT (2019) und stark ausgeweitet mit LLM-basierten Systemen ab 2022.

Kerntechnologien

Vector Embeddings für Query und Dokument
Transformer-basierte Relevanz-Modelle
Entity-Linking und Knowledge-Graph-Anbindung
Intent-Klassifikation (informational, transactional, etc.)

Konsequenz für SEO

„Für dieses Keyword optimieren" ist durch „für diese Intent-Cluster optimieren" ersetzt. Einzelne Keywords zählen nur noch in Kombination mit semantischem Umfeld. Thin Pages mit Keyword-Stuffing ranken nicht mehr - egal wie gut die klassische on-page-SEO ist.

Praxis

Semantic Search belohnt Inhalte, die ein Thema wirklich erschöpfend behandeln (Topical Authority) mehr als solche, die mit hoher Keyword-Dichte oberflächlich darüber schreiben. Die Konsequenz: weniger, aber tiefere Artikel - das Gegenteil der Content-Farmen-Ära 2015-2022.

Verwandt:Embedding Space Vector Search Topical Authority

SoM - Share of Model

SoM

Prozentsatz der LLM-generierten Antworten in einem definierten Prompt-Set, in denen die eigene Marke als eine der Top-Quellen oder -Erwähnungen vorkommt - über mehrere Modelle und Durchläufe gewichtet.

Warum SoM das neue „Market Share" ist

In der Klickwelt war Market Share = Anteil der Klicks. In der generativen Welt ist SoM = Anteil der Modell-Aufmerksamkeit. Wenn 8 von 100 Prompts meine Marke nennen, ist mein SoM = 8 %. Dieser Wert korreliert mit direkten Kaufentscheidungen, bevor ein Klick überhaupt stattfindet.

Model-Gewichtung (EU-Markt, 2026)

ChatGPT: 52 %
Google Gemini: 22 %
Claude: 11 %
Perplexity: 10 %
Bing Copilot: 5 %

Praxis

SoM muss je Markt/Region gewichtet werden - in der Türkei dominiert ChatGPT noch stärker, in den USA ist Perplexity höher repräsentiert. Die Nutzungs-Gewichte verschieben sich schnell und sollten jedes Quartal neu kalibriert werden.

Verwandt:PVI Brand Mention Density MVG

Zur Tiefenanalyse →

Silo vs. Mesh Architecture

Zwei konkurrierende Content-Architektur-Philosophien: Silo gruppiert Themen in isolierten Hierarchien; Mesh verknüpft Inhalte querverweisend über Cluster-Grenzen hinweg.

Wann welche Architektur

Silo-Architektur gewinnt bei stark voneinander abgegrenzten Themen (niedriger Jaccard-Koeffizient, < 0.25): der semantische Overlap ist gering, Links zwischen den Themen wären verwirrend. Mesh-Architektur gewinnt bei hoher semantischer Nähe: User und LLMs profitieren von Querverbindungen, Authority-Signale akkumulieren cross-topical.

Entscheidungsregel

if Jaccard(Topic_A, Topic_B) > 0.25:
    use Mesh
else:
    use Silo

Praxis

Die Entscheidung wird meist intuitiv getroffen - mit falscher Quote. In B2B-Enterprise-Setups ist der Overlap zwischen Produkten, Use-Cases und Branchen oft > 0.4, also klar Mesh. Trotzdem sehe ich in Audits häufig Silo-Strukturen, die interne Link-Kohäsion verschenken.

Verwandt:Topical Authority Topical Map

Zur Tiefenanalyse →

Buchstabe T

TAS - Topical Authority Score

TAS

Dreidimensionale Kennzahl für thematische Dominanz einer Domain - kombiniert Entity-Coverage, interne Link-Kohäsion und externe Signale zu einer einzigen steuerbaren Metrik.

Formel

TAS = 0.40·EC + 0.35·LC + 0.25·ES

EC: Entity Coverage (normalisiert 0-100) - Anteil der branchenrelevanten Entities, die abgedeckt sind
LC: Link Cohesion - interne Link-Dichte zwischen topischen Clustern
ES: External Signal - autoritative Inbound-Links & Erwähnungen

Warum TAS Keyword-Rankings ersetzt

Klassische Rankings schwanken mit SERP-Features, AI Overviews und algorithmischen Updates. TAS ist stabiler, weil er strukturelle Autorität misst, die aus Content und Architektur folgt. Eine Domain mit TAS 75 rankt auch nach Updates konsistent besser als eine mit TAS 45 - unabhängig von Einzelkeywords.

Praxis

In einem dokumentierten SaaS-Mandat stieg TAS von 31 auf 79 innerhalb von 14 Monaten, mit +154 % organischem Traffic als Folge. Die Mechanik: Gezielte EC-Erweiterung über Entity-Audit, LC-Aufbau durch interne Linking-Kampagne, ES durch Digital PR. Keine einzelne Keyword-Optimierung.

Verwandt:Topical Map Entity Silo vs. Mesh

Zur Tiefenanalyse →

Topical Map

Strukturierte Karte aller Themen, Sub-Themen und Entities, die eine Domain abdeckt - das Content-Strategie-Werkzeug, das Keyword-Listen in der semantischen Suche ablöst.

Aufbau

Hauptthema (Top-Level Entity)
Cluster-Themen (Sub-Entities, meist 5-12 pro Hauptthema)
Sub-Cluster und Supportthemen
Entity-Graph aus Wikidata + Branchen-Knowledge-Bases

Erstellungsprozess

Vier parallele Quellen werden kombiniert: Wikidata-SPARQL für kanonische Entity-Hierarchie, SERP-Extraktion für User-Intent-Cluster, Competitor-Delta für Lücken im eigenen Content, LLM-Expansion für semantisch benachbarte Entities. Das Ergebnis: eine 80-300 Knoten umfassende Karte, die Content-Production und interne Verlinkung steuert.

Praxis

Topical Maps sind kein einmaliges Deliverable - sie werden mit jedem neuen Content-Piece iterativ erweitert. Moderne Mapping-Tools (MarketMuse, Frase, Surfer) liefern Einstiegshypothesen, aber die kritische Arbeit ist die manuelle Verifikation der Relevanz und Priorisierung.

Verwandt:TAS Silo vs. Mesh Entity

Zur Tiefenanalyse →

Buchstabe V

Vector Embedding

Numerische Repräsentation eines Textes, Begriffs oder Bildes als hochdimensionaler Vektor - die Grundform, in der moderne LLMs und Retrieval-Systeme semantische Information speichern und vergleichen.

Typische Dimensionalität

OpenAI text-embedding-3-small: 1.536
OpenAI text-embedding-3-large: 3.072
BGE-M3 (multilingual): 1.024
BERT-base: 768

Warum Embeddings SEO strukturell verändern

Zwei Texte mit 0 % Wort-Überlappung können Embeddings mit Cosine-Similarity > 0.9 haben - wenn sie dasselbe Konzept ausdrücken. Umgekehrt: zwei Texte mit 90 % gleicher Wortwahl können semantisch entgegengesetzt sein. Klassische Keyword-Dichte-Analysen sind in diesem Paradigma irrelevant.

Praxis

Praktisch bedeutet das für Content-Produktion: Synonyme, Paraphrasen, alternative Formulierungen verstärken das semantische Signal statt es zu verwässern. Das Gegenteil der alten „Keyword-Konsistenz"-Regel.

Verwandt:Embedding Space Vector Search

Vector Search

Suchmethode, die Query und Dokumente als Embeddings vergleicht und nach Distanz im Vektorraum rankt - die dominante Retrieval-Technik in LLM-gestützten Such-Systemen.

Vs. klassische Suche

BM25/TF-IDF: findet exakte und Teil-Keyword-Matches. Vector Search: findet semantische Nähe, auch ohne gemeinsame Wörter. Moderne Systeme nutzen beide zusammen (Hybrid Retrieval) - Vector für Konzept-Ebene, BM25 für exakte Begriffe und Eigennamen.

Nearest-Neighbor-Algorithmen

HNSW (Hierarchical Navigable Small World) - produktiv dominant
IVF (Inverted File) - speichereffizienter, schneller build
Flat Index - exakt, aber nicht skalierbar

Praxis

Für GEO-Arbeit ist die algorithmische Detail-Ebene selten relevant. Entscheidend ist das Verständnis: Vector Search belohnt semantisch kohärente Passagen - Content muss inhaltlich dicht sein, nicht nur Keyword-reich. Sprachliche Variation schadet nicht, sie hilft.

Verwandt:Vector Embedding BM25 RAG

Buchstabe Z

Zero-Click Search

Suchergebnis-Typ, bei dem der User die Antwort direkt in der SERP erhält und nicht mehr auf ein organisches Ergebnis klickt - in 2026 der Default für einen wachsenden Teil informationaler Queries.

Treiber

AI Overviews (Google)
Featured Snippets (Position 0)
People-Also-Ask Boxen
Knowledge Panels
Shopping-Integrationen

Die paradoxe Chance

Weniger Klicks heißt nicht weniger Impact. Brand-Impressions ohne Klick erzeugen Recognition, Recall und AI-Citation-Events - Signale, die klassische Analytics nicht erfassen. Wer nur CTR misst, sieht das Glas als halbleer. Wer Share-of-Model und Brand-Lift-through-AI misst, sieht den tatsächlichen Markenaufbau.

Praxis

Die Messsystem-Umstellung ist nicht optional. Eine Enterprise-Brand, die weiterhin primär auf organic clicks optimiert, verfehlt den Realitätscheck 2026. Zero-Click erfordert: neue KPIs (PVI, SoM, Citation Rate), neues Content-Briefing (Passage-Optimierung), neue Attribution (90-Tage-Fenster statt Last-Click).

Verwandt:AAR AIO SoM PVI

Zur Tiefenanalyse →

Fachbegriffe der Suchökonomie 2026.

AAR - AI Overview Absorption Rate

Warum diese Kennzahl existiert

Formel

Anwendung in der Praxis

AIO - AI Overviews

Warum AIO zentral geworden ist

Typische SERP-Struktur

Optimierung

Applebot-Extended

Warum die Trennung relevant ist

robots.txt Beispiel

Praxis

Attribution (im Zero-Click-Kontext)

Warum klassische Attribution scheitert

Modernes Attribution-Modell

Praxis

BM25 - Best Match 25

Warum BM25 noch zählt

Formel (vereinfacht)

Praktische Konsequenz

Brand Mention Density

Warum diese Kennzahl neu ist

Messmethode

Praxis

Canonical Tag

Warum Canonicals in der KI-Ära wichtiger werden

Regeln

Praxis

Citation Rate

Unterschied zu Brand Mention Density

Benchmarks

Treiber

Co-Occurrence (semantisch)

Warum Co-Occurrence LLM-Rankings dominiert

Kanäle mit hohem Co-Occurrence-Gewicht

Praxis

CTR-Drift

Warum CTR-Drift gefährlich ist

Detection-Methode

Praxis

DefinedTerm Schema

Warum es in der KI-Ära wichtig ist

JSON-LD-Muster

Praxis

Dwell Time

Was Dwell Time wirklich bedeutet

Treiber guter Dwell Time

Praxis

E-E-A-T

Die vier Dimensionen

Warum E-E-A-T in der KI-Ära noch wichtiger wird

Operative Umsetzung

Embedding Space

Wie Embeddings die Suche verändert haben

Distanzmaße

Praxis-Konsequenz

Entity (Schema.org)

Warum Entities SEO neu definieren

Entity-Konsolidierungs-Checkliste

Praxis

GEO - Generative Engine Optimization

Abgrenzung zu klassischem SEO

Die drei zentralen Hebel

Warum GEO eigene Disziplin ist

Google-Extended

Die strategische Entscheidung

robots.txt-Pattern

Praxis

GPTBot

Status-Code 429 - die stille Falle

Check-Liste

Praxis

Helpful Content Update

Was als „helpful" gilt

Operative Markers

Praxis

hreflang

Typische Fehler

GEO-Relevanz