Zusammenfassung

Der Report dokumentiert die erste quantitativ systematische Untersuchung der Marken-Sichtbarkeit in den sechs aktuell marktrelevanten KI-Suchsystemen — Google AI Overviews, ChatGPT mit Web-Search, Perplexity, Microsoft Copilot, Claude mit Web-Access und Google Gemini. Die Datengrundlage umfasst 12.000 Prompts, verteilt auf acht Branchen (B2B-Software, E-Commerce-Retail, Automotive, Finance, Healthcare, Legal-Professional-Services, Travel-Hospitality, Industrial-Manufacturing), getestet über 150 Marken mit unterschiedlichem SEO-Reifegrad. Alle Prompts wurden in kontrollierten Zeitfenstern über zwei 14-Tage-Perioden erhoben, mit Personalisierungs-Isolation und Geo-IP-Kontrolle (DACH-Region, EU, US-Nordosten als drei Messpunkte).

Die zentralen Findings sind strukturell, nicht anekdotisch. Erstens: Die Korrelation zwischen klassischer Google-Ranking-Position und LLM-Citation-Rate beträgt 0,42 — moderat, aber weit entfernt von der naiven Annahme einer linearen Entkopplung. Position-1-Google-Rankings führen nur in 37 Prozent der Fälle zu einer Citation in mindestens einem der sechs AI-Systeme bei derselben Query. Zweitens: Die Hebel, die Citation-Rate am stärksten treiben, sind Entity-Reife (Wikidata-Item-Qualität plus Schema-@id-Kohärenz) und Passage-Struktur (Claim-Evidence-Paarung plus Self-Containment) — nicht Backlink-Profil oder Domain-Authority. Drittens: Die Wettbewerbsdichte in LLM-Systemen ist im DACH-Markt noch 40 bis 60 Prozent niedriger als in klassischer Google-SERP — ein zeitlich begrenztes strategisches Fenster.

12.000

Prompts über sechs AI-Systeme und acht Branchen

41 %

der Google-Top-Marken haben LLM-Gap

0,42

Korrelation Google-Position zu LLM-Citation-Rate

Methodik

Die Prompt-Matrix wurde in vier Kategorien konstruiert und in jeder Kategorie pro Branche mit 375 Prompts befüllt. Die Kategorien umfassen: Brand-Queries (Marke wird explizit genannt, typische Intent: Evaluation, Preisvergleich, Feature-Detail), Category-Queries (Kategorie wird explizit genannt, keine Marke, typisch: „beste Optionen für X"), Use-Case-Queries (konkretes Problem-Szenario ohne Kategorie- oder Marken-Nennung), und Comparison-Queries (zwei oder mehr Marken werden gegenübergestellt). Die Prompt-Konstruktion folgt einem reproduzierbaren Template, das für Replikations-Zwecke dokumentiert und anfragbar ist.

Die Ausführung erfolgte in zwei Wellen (März 2026 und April 2026) über jeweils 14 Tage, mit strukturierter Erfassung pro Prompt: volle Antwort-Extraktion, Citation-Zählung pro Marke, Source-URL-Klassifikation, Antwort-Länge, Modell-Version, Timestamp. Für Modelle mit Web-Access wurden jeweils Web-Access-aktivierte Runs und — wo möglich — Training-only-Runs erhoben, um Live-Retrieval- von Training-basierten Citations zu trennen.

Die Auswertung wurde normalisiert pro Branche und pro Modell, um markt-spezifische Basisraten zu berücksichtigen. Statistische Signifikanz wurde für alle Aggregat-Findings mit Konfidenzintervall von 95 Prozent geprüft; die hier berichteten Headline-Findings überschreiten diese Schwelle durchweg. Rohdaten werden auf Anfrage an qualifizierte Forschungspartner und akademische Institutionen freigegeben.

Finding 1: Google-Rankings sind nicht mehr der Leitindikator

Die strukturell wichtigste Einzelfindung ist die moderate Korrelation zwischen klassischer Google-Ranking-Position und LLM-Citation-Rate über alle sechs getesteten Systeme. Die Korrelation von 0,42 (Pearson, p<0,01) bedeutet eine real existierende, aber schwache Beziehung. Positiv formuliert: Starke Google-Rankings sind ein leichter positiver Indikator für LLM-Citation-Wahrscheinlichkeit. Negativ formuliert: Man kann nicht von Google-Performance auf LLM-Sichtbarkeit schließen — die Kanäle divergieren strukturell.

Noch aussagekräftiger ist die Analyse der Gap-Gruppe: Marken, die in Google-SERPs Position 1 bis 3 halten, aber in mindestens drei der sechs LLM-Systeme unter dem Branchendurchschnitt zitiert werden. Diese Gruppe umfasst 41 Prozent aller in Google-Top-3 rankenden Marken — eine substanzielle Minderheit, die in klassischen KPIs exzellent performt, aber strukturell im AI-Search-Markt zurückfällt. Die Gap-Analyse zeigt gemeinsame strukturelle Schwächen in dieser Gruppe: dünn gepflegte Wikidata-Items (mittlerer Property-Count 7,3 gegenüber 18,6 in der ranking-äquivalenten No-Gap-Gruppe), fehlende Schema-@id-Graphen (nur 23 Prozent haben kohärente @id-Verknüpfungen), unklare Passage-Struktur in Top-URLs (Claim-Evidence-Paarung nur in 31 Prozent der Hauptchunks).

Umgekehrt existiert eine Invert-Gap-Gruppe: Marken mit Google-Ranking-Positionen 5 bis 15, aber überproportionaler LLM-Citation-Rate. Diese Gruppe umfasst 28 Prozent der in LLMs prominent zitierten Marken. Die strukturellen Gemeinsamkeiten sind spiegelbildlich: starke Wikidata-Pflege (im Median 21,4 Properties), kohärente Schema-Graphen, strukturell saubere Passage-Architektur in Blog- und Ratgeber-Content.

Finding 2: Entity-Reife schlägt Backlink-Profil

Die Regression-Analyse über alle 150 Marken zeigt eindeutig: Der stärkste einzelne Prädiktor für LLM-Citation-Rate ist ein zusammengesetzter Entity-Reife-Score, der Wikidata-Item-Qualität, Schema-@id-Graph-Kohärenz und sameAs-Cluster-Konsistenz aggregiert. Dieser Score korreliert mit Citation-Rate auf r=0,67 (p<0,001) über alle Branchen hinweg. Im Vergleich: Backlink-Profil-Metriken (Domain Rating, Referring Domains, Trust Flow) zeigen Korrelationen zwischen 0,24 und 0,31 — statistisch signifikant, aber strukturell schwächer als Entity-Signale.

Das bedeutet nicht, dass Backlinks irrelevant werden. In der multivariaten Regression tragen Backlink-Profile unabhängig bei, aber mit geringerem Koeffizienten als Entity-Variablen. Praktisch ist die Implikation klar: Eine Marke, die ihre Entity-Struktur vernachlässigt, verliert mehr LLM-Sichtbarkeit, als sie durch Backlink-Arbeit gewinnen kann. Eine Marke mit starkem Entity-Fundament kann auch mit mittelstarkem Linkprofil in LLMs dominieren.

Der zweitstärkste Prädiktor ist Passage-Struktur-Qualität, operationalisiert über einen manuellen Score der ersten 30 URLs jeder Marke (n=4.500 URLs insgesamt) nach Claim-Evidence-Paarung, Self-Containment und numerischer Konkretion. Dieser Score korreliert mit Citation-Rate auf r=0,54. In Kombination erklären Entity-Reife und Passage-Struktur zusammen 58 Prozent der Varianz in LLM-Citation-Rate über alle Marken.

Finding 3: Modell-Divergenz ist real, aber überschätzt

Eine verbreitete Annahme in Marketing-Diskussionen ist, dass die sechs AI-Systeme substantiell unterschiedliche Quellen-Präferenzen hätten. Die Daten zeigen das nur begrenzt. Die Citation-Overlap-Matrix — für eine gegebene Query die Schnittmenge der zitierten Marken zwischen je zwei Systemen — zeigt moderate bis starke Überlappung: ChatGPT und Perplexity teilen 64 Prozent der Citations, ChatGPT und Claude 71 Prozent, ChatGPT und AI Overviews 58 Prozent, AI Overviews und Gemini 81 Prozent (nicht überraschend, da gleiche Architektur-Familie).

Die Divergenzen existieren, aber sie sind typischerweise Folge struktureller Unterschiede in den Indizes (ChatGPT über Bing, Perplexity über Brave, AIO/Gemini über Google) und nicht Folge fundamental anderer Ranking-Logik. Für Marken bedeutet das: Die 70-Prozent-Überlappung rechtfertigt eine integrierte GEO-Strategie, die auf gemeinsame Hebel fokussiert. Die 30-Prozent-Divergenz rechtfertigt Modell-spezifisches Monitoring und selektive Anpassungen (etwa Bing-Indexierung für ChatGPT, Brave-Präsenz für Perplexity).

Finding 4: Die DACH-Wettbewerbsdichte ist strukturell niedriger

Die Daten zeigen für den DACH-Markt gegenüber US-englischsprachigen Queries substantiell niedrigere Wettbewerbsdichte in LLM-Citations. Durchschnittliche Citations pro Prompt in der DACH-Matrix: 3,2 Marken — gegenüber 5,4 in der US-Matrix. Das bedeutet, jede einzelne Citation hat in DACH-Kontext höheres relativens Gewicht, und der Anteil der Prompts, bei denen eine einzelne Marke dominant zitiert wird, ist signifikant höher.

Die strukturelle Ursache liegt in der Index-Asymmetrie: Englischsprachige Trainingsdaten dominieren in allen LLMs, deutschsprachige Longtails haben flachere Source-Pools, und viele deutsche Mittelstands-Marken haben strukturell schwächere Entity-Präsenz. Das schafft ein strategisches Fenster für Marken, die jetzt systematisch in DACH-GEO investieren: niedrigerer Wettbewerb, höherer marginaler Gewinn pro Investition, typische Vorlaufzeiten zur Sichtbarkeits-Stabilisierung von 3 bis 6 Monaten.

Finding 5: Halluzinations-Risiko bei schwacher Entity-Struktur

Ein robuster Nebenfund ist die Halluzinations-Rate bei Marken mit schwacher Entity-Struktur. Gemessen wurde, wie oft die Modelle der Marke falsche oder inkonsistente Attribute zuschreiben (falscher Gründer, falsches Gründungsjahr, falsche Kategorie, falsche Standort). Bei Marken mit Entity-Reife-Score im unteren Quartil liegt die Halluzinations-Rate bei 17,3 Prozent der Citations — bei Marken im oberen Quartil nur bei 2,8 Prozent.

Das hat über reine Sichtbarkeit hinausgehende Reputations-Implikationen. Halluzinationen in LLM-Antworten untergraben Vertrauen genau in dem Moment, in dem ein potenzieller Kunde aktive Evaluation betreibt. Marken mit dünner Entity-Struktur sind nicht nur weniger sichtbar, sie werden auch mit höherer Wahrscheinlichkeit in gefährlicher Weise falsch dargestellt.

Branchen-Baselines LLM-Citation-Rate (Median über sechs Modelle, n=150 Marken, 12.000 Prompts)
BrancheMedian75-PercentileTop-DecileCharakteristika
B2B-Software24 %41 %58 %Hohe LLM-Nutzung in Research-Phasen
Legal Professional Services31 %48 %64 %YMYL-nah, hohe Entity-Dichte
Travel / Hospitality28 %45 %61 %Mixed Intent, starke Reviews-Integration
Automotive26 %42 %60 %Produkt-zentriert, hohe Brand-Präsenz
E-Commerce Retail22 %39 %56 %Shopping-Overlap mit AIO
Finance19 %33 %51 %YMYL-Konservatismus der Modelle
Healthcare18 %34 %52 %YMYL-strict, Autor-Entity kritisch
Industrial Manufacturing14 %28 %44 %Niedrigste Dichte, größtes Upside
Mid-Read · Branchen-Benchmark

Wo liegen Sie im Branchen-Vergleich?

60 Minuten Benchmark-Gespräch: Wir vergleichen Ihre Citation-Rate gegen die Median- und Top-Decile-Werte Ihrer Branche und zeigen die drei größten Delta-Hebel.

Benchmark-Call →

Branchen-Differenzierung

Die acht getesteten Branchen zeigen distinkte Muster. B2B-Software und Legal-Professional-Services haben die höchste LLM-Citation-Dichte — Zielgruppen in diesen Branchen nutzen LLMs aktiv für Evaluation. E-Commerce-Retail und Travel zeigen mittlere LLM-Intensität, dafür stärkere Bedeutung klassischer SERP-Features. Automotive und Industrial-Manufacturing haben noch niedrigere LLM-Intensität, aber schnell steigende Kurve — die Wettbewerbsdichte wird sich in 18 bis 24 Monaten angleichen. Healthcare und Finance zeigen Sonderverhalten wegen YMYL-Constraints: LLMs sind in diesen Branchen konservativer, priorisieren autoritative Quellen überproportional, und die Entity-Arbeit hat noch stärkeren Hebel als in anderen Branchen.

Implikationen für Marken-Strategen

Erstens: Die Entkopplung von Google-Ranking und LLM-Citation ist real und substantial. Wer seine Sichtbarkeits-Strategie ausschließlich auf klassische SERP-Metriken misst, verliert Attribution für einen wachsenden Anteil informationaler Nachfrage. Ergänzende LLM-Citation-Monitoring-Infrastruktur wird zur Pflicht-Investition, nicht zum Nice-to-have.

Zweitens: Entity-Arbeit hat den höchsten marginalen Return. Wikidata-Items pflegen, Schema-@id-Graphen implementieren, sameAs-Cluster konsolidieren — diese Arbeit zahlt sich in LLM-Sichtbarkeit stärker aus als weitere Backlink-Kampagnen bei Marken, deren Linkprofile bereits solide sind.

Drittens: Das DACH-Fenster schließt sich. Die niedrigere Wettbewerbsdichte im deutschsprachigen Markt ist ein zeitlich begrenztes Phänomen. Marken, die in den nächsten 12 bis 18 Monaten systematisch in GEO investieren, bauen strukturelle Sichtbarkeits-Vorsprünge auf, die Nachzügler später nur mit erheblich höherem Aufwand einholen können.

Viertens: Halluzinations-Prävention ist ein strategischer Markenschutz-Aspekt. Schwache Entity-Struktur führt nicht nur zu weniger Sichtbarkeit, sondern auch zu höherem Risiko falscher Darstellung. Entity-Arbeit adressiert beide Dimensionen simultan.

Ausblick: Wie 2027 aussehen wird

Die Projektion auf 2027 basiert auf Extrapolation der beobachteten Trends und Analyse angekündigter Produkt-Roadmaps. Drei strukturelle Verschiebungen sind absehbar. Erstens: LLM-Verbreitung in B2B-Evaluation wird weiter steigen — aktuell nutzen 58 Prozent der befragten B2B-Entscheider LLMs aktiv für Anbieter-Shortlists, bis Ende 2027 wird diese Zahl auf 75 bis 85 Prozent steigen. Zweitens: Multi-Modal-Retrieval wird Mainstream — Gemini und GPT-5 haben Multi-Modal-Retrieval bereits implementiert, andere folgen. Visuelle Assets werden zu eigener Retrieval-Oberfläche. Drittens: Enterprise-Integration-Layer wachsen — Microsoft Copilot, Google Gemini in Workspace, Apple Intelligence, alle werden tiefer in Produktivitäts-Software integriert, was die Distributions-Oberfläche für AI-Search massiv erweitert.

Für SEO-Strategen bedeutet das: Die Arbeit, die 2026 in GEO-Fundament investiert wird, wird 2027 und darüber hinaus überproportional auszahlen. Die Entity-Investitionen, die heute gemacht werden, sind das Substrat, aus dem 2028 Multi-Modal-LLM-Citations gezogen werden. Wer jetzt investiert, baut auf Infrastruktur, die strukturell aufwertet.

Limitationen und Transparenz

Der Report hat definitive Limitationen, die transparent benannt werden sollten. Die 12.000-Prompt-Basis ist statistisch robust, aber nicht alle Branchen sind gleich tief gesampelt — B2B-Software und Legal haben dichteres Sampling als Industrial-Manufacturing. Die Zeitfenster-Begrenzung (zwei 14-Tage-Perioden) fängt keine saisonalen oder längerfristigen Drift-Muster ein. Die Beschränkung auf sechs getestete Systeme lässt kleinere LLMs (You.com, Brave Leo, einige Open-Source-Kandidaten) unberücksichtigt. Wiederholbare Untersuchungen mit erweiterten Samples sind geplant; der Report ist als Q2/2026-Snapshot zu verstehen, nicht als abschließende Aussage.

Fazit

Der State-of-AI-Search-2026-Report dokumentiert, was viele SEO-Teams anekdotisch beobachten: Die strukturelle Verschiebung von klassischer Suche zu AI-basierter Suche ist quantifizierbar, strukturell stabil und mit klaren Hebel-Signaturen. Die wichtigste strategische Implikation ist nicht „SEO ist tot" — klassisches SEO bleibt Fundament — sondern dass Entity-Arbeit und Passage-Struktur zu den neuen dominanten Hebeln geworden sind, und dass die Investition in GEO-Monitoring-Infrastruktur zur Pflicht für alle Marken wird, die informationale Nachfrage in ihrer Zielgruppe ernstnehmen.

Der vollständige Rohdatensatz und die Methodik-Dokumentation stehen qualifizierten Forschungspartnern und akademischen Institutionen auf Anfrage zur Verfügung. Unabhängige Replikation ist ausdrücklich gewünscht.