Reputation war jahrzehntelang eine PR-Disziplin. SEO war eine Technologie-Disziplin. ORM war das ungeliebte Grenzgebiet dazwischen — oft abgeschoben in Legal-Teams, selten strategisch integriert. Diese organisatorische Trennung war funktional, solange die Signale in getrennten Kanälen verarbeitet wurden.
Mit der Verbreitung von LLMs als Informationsquelle (ChatGPT: 500+ Mio Wochen-User, Gemini: ~350 Mio, Perplexity: ~30 Mio) ist diese Trennung nicht mehr haltbar. Generative Modelle verarbeiten Brand-Mentions, Sentiment-Daten, strukturierte Trust-Signale und E-E-A-T-Indikatoren simultan — und kommunizieren das Ergebnis in einer einzigen synthetischen Antwort an den Nutzer.
Der Sentiment-Drift-Mechanismus
Der Begriff Sentiment-Drift beschreibt ein Phänomen, das wir in Kundenprojekten seit 2024 systematisch dokumentieren: Die Darstellung einer Marke in LLM-Antworten verschiebt sich über die Zeit — auch ohne dass sich die objektive Datenlage ändert.
Die Ursachen liegen in zwei Mechanismen:
Training-Layer-Drift
LLMs werden regelmäßig auf neue Daten trainiert. Zwischen Trainingszyklen bleiben Informationen in der „Gedächtnisschicht" des Modells — auch wenn sie in der aktuellen Web-Realität längst überholt sind. Ein viraler Negativ-Thread auf Reddit oder eine negative Fachmedien-Berichterstattung kann sich in der Trainingsdata einnisten und Monate bis Jahre in der Modellwahrnehmung präsent bleiben.
RAG-Layer-Drift
Moderne Systeme wie Perplexity, ChatGPT Search und Google AI Overviews nutzen Retrieval Augmented Generation: Bei einer Query wird live aus dem Web geholt. Hier wirkt sich Sentiment noch schneller aus. Wenn bei einem Brand-Query „[Markenname] Erfahrungen" die Top-Ergebnisse aus Reddit-Kritik, Trustpilot-Beschwerden und einem kritischen Blog bestehen, synthetisiert das LLM diese Signale in die Antwort — selbst wenn 95 % der Kundenerfahrungen positiv sind.
der User treffen Kaufentscheidungen auf Basis von LLM-generierten Markenbewertungen (Gartner 2025)
typische Persistenz negativer Sentiment-Signale in LLM-Antworten
Ratio notwendiger positiver Signale zur Kompensation eines viralen Negativ-Ereignisses
Warum klassisches ORM nicht mehr ausreicht
Das etablierte ORM-Playbook — Review-Management, Suppression-Content, Legal-Requests an Google — wurde für eine Welt entwickelt, in der Nutzer Suchergebnisse selbst lesen und bewerten. In der generativen Welt entscheidet die KI, was relevant ist, und präsentiert es als konsolidierte Antwort. Der Nutzer sieht das Verdict, nicht die Quellen.
Konkret versagen folgende klassische Taktiken:
- Suppression-Content: Funktioniert für SERP-Positionen, aber nicht für LLMs, die Inhalte semantisch verstehen. Ein Blog-Post „Unternehmen X hat dieses Problem nicht" kann als Bestätigung des Problems paraphrasiert werden.
- Review-Gamification: LLMs erkennen auffällige Review-Muster (Sentiment-Bias, Phrasenwiederholungen) und gewichten solche Quellen ab.
- Rechtliche Take-Downs: Entfernt Inhalte aus Live-Index, aber nicht aus Trainingsdaten von Modellen, die auf älteren Crawls basieren.
- PR-Gegennarrative: Ohne Entity-Strategie werden sie nicht mit der Marke verknüpft gespeichert.
Das Reputation-Engineering-Modell
Reputation Engineering ist der systematische Aufbau von Trust-Signalen, die über alle Layern einer KI-Antwort wirken: Training-Korpus, RAG-Retrieval, On-Page-Signale und strukturierte Daten.
Ebene 1: Training-Layer-Signale
Inhalte müssen in LLM-Trainingsquellen landen. Die dominierenden Quellen (Common Crawl, Wikipedia, qualifizierte News, kuratierte Datasets) bestimmen, wie eine Marke in zukünftigen Modell-Iterationen gespeichert wird. Maßnahmen:
- Wikipedia-Artikel mit verifizierter Relevanz (Notability) und qualifizierten Quellen
- Beiträge in hochautoritären Fachmedien mit klarer Autorenschaft
- Akademische Zitationen wo möglich (Research Partnerships)
- Podcast-Transkripte und Video-Captions (werden von vielen Modellen gescrapet)
Ebene 2: RAG-Layer-Signale
Was bei Live-Queries abgerufen wird. Hier wirkt klassische SEO kombiniert mit Zitations-optimiertem Content:
- Dominanz der Brand-SERP (Position 1–10 für „[Markenname]", „[Markenname] Erfahrungen", „[Markenname] Bewertung")
- Hochautoritative Eigen-Domains mit klarer Informationsarchitektur
- Aktualisierte FAQ-Schemas mit Antworten auf kritische Fragen
- Strukturierte Review-Aggregation über
AggregateRating-Schema
Ebene 3: Sentiment-Monitoring in generativen Engines
Klassisches Brand-Monitoring (Brandwatch, Talkwalker, Meltwater) reicht nicht mehr. Nötig ist Prompt-basiertes Sentiment-Tracking:
- Wöchentliche Audits gegen 100–300 relevante Brand-Prompts
- Messung: Wird die Marke genannt? In welchem Kontext? Welches Sentiment? Welche Wettbewerber werden als Alternativen erwähnt?
- Tools: Profound, Otterly.ai, BrandRank.ai, Custom-Setups mit API-Zugriff
„Reputation im LLM-Zeitalter ist nicht mehr die Frage, was man sagt. Es ist die Frage, wie Modelle die Welt darüber lernen. Und diese Lernprozesse laufen in Dimensionen, die kein PR-Team bis vor drei Jahren kannte."
Fall-Muster: Wie Krisen in LLMs anders verlaufen
In der Analyse von 40+ Reputations-Krisen europäischer Marken (2023–2025) zeigt sich ein konsistentes Muster, das sich fundamental von klassischen PR-Krisen unterscheidet:
Tag 0–3: Viraler Pik
Negativer Event geht viral auf Social Media, Reddit, X. Klassische PR-Response: Statement, Erklärung, ggf. Entschuldigung.
Tag 3–21: Klassische Medienberichterstattung
Fachmedien greifen das Thema auf. SEO-seitig zeigen sich Ranking-Verschiebungen. Search-Volume für kritische Brand-Queries steigt.
Tag 21–60: Der unsichtbare LLM-Lag
Während sich die Google-SERP bereits normalisiert und PR-Zyklen abschließen, beginnen LLMs erst, die Krise zu „verstehen". Modelle lernen die Assoziation Marke ↔ Krisenthema und geben diese in Antworten wieder. Peak der LLM-Sichtbarkeit der Krise: Tag 30–45.
Tag 60–180: Sentiment-Persistenz
Ohne aktive Gegenmaßnahmen bleibt die Krise in LLM-Antworten präsent. Besonders robust: Associations mit spezifischen Themen (z. B. „Unternehmen X" ↔ „Datenschutzproblem"). Diese Associations halten sich durch Retraining-Zyklen, weil sie in der Training-Data-Verteilung dominant sind.
Die 8:1-Regel
Zur Kompensation eines viralen Negativ-Ereignisses in LLM-Wahrnehmung sind empirisch etwa acht positive qualifizierte Content-Signale erforderlich — über Fachmedien, Wikipedia-Revisions, wissenschaftliche Artikel oder hochautoritative Eigen-Publikationen. Diese Ratio ist nicht in Pressemitteilungen oder Social-Posts erreichbar. Reputation Engineering braucht strategische Content-Investitionen über 6–12 Monate, nicht PR-Taktik über 48 Stunden.
Die fünf Prinzipien modernen Reputation Engineerings
- Proaktiv statt reaktiv: Trust-Signale werden vor der Krise aufgebaut. Nach der Krise ist es zu spät für Training-Layer-Impact.
- Quelle vor Kanal: Ein qualifizierter Fachmedien-Artikel wirkt in LLMs mehr als 100 Social-Posts. Distribution-Strategie muss auf LLM-relevante Quellen ausgerichtet sein.
- Entity-Konsistenz: Jedes positive Signal muss mit der Marken-Entität verknüpft sein. Lose Inhalte, die nicht klar zur Marke gehören, wirken nicht.
- Langfristige Frequenz: Das Gedächtnis von LLMs ist additiv. Konstante, qualifizierte Signale über Monate schlagen kurze, intensive Kampagnen.
- Messung auf Prompt-Ebene: Reputations-KPIs werden direkt in LLM-Antworten gemessen — nicht in Traditional Brand Trackers allein.
Die Reputation-Impact-Formel: wie man Sentiment-Drift quantifiziert
Reputation ist messbar. Wir verwenden einen Composite-Score — den Reputation Drift Index (RDI) — um die Entwicklung der Marken-Wahrnehmung in LLMs zu tracken. Der RDI liegt zwischen −100 und +100 und wird wöchentlich berechnet.
RDI = (Σ (s_i × w_i × c_i)) / (Σ w_i) × 100
mit:
s_i = Sentiment-Score der i-ten Prompt-Antwort (−1 negativ, 0 neutral, +1 positiv)
w_i = Prompt-Gewicht (Business-Relevanz × Prompt-Frequenz im Real-Traffic)
c_i = Confidence-Score (wie deutlich das Sentiment im Text ist, 0–1)
Test-Set: 200 Brand-relevante Prompts über 4 LLMs = 800 Abfragen/Woche
Threshold: RDI > +30 = gesund; 0–30 = neutral; −30–0 = Warnung; < −30 = Kritik
Für die Sentiment-Klassifikation nutzen wir zwei unabhängige Models (GPT-4o-mini + Claude Haiku) im Cross-Validation-Modus. Disagreements werden manuell gereviewed. Die Inter-Annotator-Agreement liegt in unseren Kunden-Setups bei κ = 0,81 — operativ belastbar.
Source-Weighting: welche Quellen das Modell-Gedächtnis prägen
Nicht alle Quellen wirken gleich. Wir arbeiten mit einem internen Source-Weight-Index, der Publikationen in vier Tiers einteilt. Die Tier-Zuordnung basiert auf (a) Präsenz in Common Crawl, (b) domänenspezifische Authority, (c) Frequenz als Zitations-Quelle in LLM-Outputs.
Wikipedia, Wikidata, Reuters, AP, Handelsblatt, FAZ, Nature — Faktor 10
Branchenleitmedien, etablierte Fachverlage, Universitäten — Faktor 5
Corporate-Blogs mit Authority, Mid-Tier-Fachmedien — Faktor 2
Die praktische Konsequenz: Ein einziger verifizierter Wikipedia-Edit mit sauberer Sekundärquelle kann mehr Reputation-Impact erzeugen als 50 Corporate-Blog-Posts. Wer Reputation-Budget auf Tier-3-Distribution verschwendet, verschwendet Budget.
Tutorial: Reputation-Defense-Setup in 30 Tagen
Woche 1 — Audit & Baseline
200 Brand-Prompts gegen alle 4 LLMs ausspielen, RDI berechnen. Parallel: Brand-SERP-Audit für Top-30 Brand-Queries in Google, Bing, DuckDuckGo. Identifikation aller Quellen, die in Top-10 erscheinen. Anlegen eines Reputation-Inventars: jede erwähnende Quelle mit Sentiment, Tier, Zugriff-Status.
Woche 2 — Quick-Wins sichern
Offensichtliche Lücken schließen: Knowledge Panel beanspruchen, Wikidata-Item aktualisieren, Brand-FAQ-Schema live nehmen, AggregateRating auf der Homepage implementieren, negative Reviews mit verifizierter Gegendarstellung beantworten (nicht löschen lassen — das wirkt in LLMs schlechter als eine sichtbare, souveräne Antwort).
Woche 3 — Tier-1-Content-Sprint
Mindestens 3 substantielle Pitches an Tier-1-Publikationen (Expertenbeitrag, Daten-Story, Interview). Parallel: Wikipedia-Notability prüfen; wenn erreicht, ein neutraler Artikel-Entwurf in den Draft-Namespace (eigene Edits sind COI — besser ein erfahrener Autor extern).
Woche 4 — Infrastruktur
Wöchentliches Prompt-Monitoring-Dashboard aufsetzen. Alert-Logik: RDI-Drop > 15 Punkte in 7 Tagen → automatisierter Ping an Comms-Lead. Zweites Alert: neue Entity-Associations, die in den Vorwochen nicht auftauchten → mögliche aufkommende Krise.
Krisenplaybook: die ersten 72 Stunden entscheiden nicht mehr alleine
Im klassischen Krisenmanagement galt: „Die ersten 72 Stunden entscheiden alles." Das ist in der LLM-Ära nur noch halbrichtig. Die ersten 72 Stunden entscheiden den kurzfristigen SERP- und Social-Impact. Die nächsten 30–90 Tage entscheiden den LLM-Impact, der eine Krise potenziell über Jahre konserviert.
Unser 3-Phasen-Playbook:
Phase 1 (Tag 0–3) — Containment. Klassische Krisen-PR: Statement, Ownership, Korrektur. Parallel: Tier-1-Quellen mit validiertem Faktencheck briefen, damit die erste Welle der Berichterstattung balanced ist.
Phase 2 (Tag 3–30) — Narrative-Reinforcement. Zehn bis fünfzehn qualifizierte Follow-up-Beiträge mit konstruktivem Framing. Entscheidend: In jedem Beitrag muss die Marke im selben Absatz wie die Lösung/Reaktion erscheinen. So verschiebt sich die Ko-Okkurrenz in den LLM-Trainingsdaten weg vom Problem hin zur Korrektur.
Phase 3 (Tag 30–180) — Entity-Reframing. Neue Ko-Okkurrenz-Felder aktiv bespielen: die Marke tritt in Kontexten auf, die mit dem Krisenthema gar nichts zu tun haben — Innovation, Gesellschafts-Engagement, operative Exzellenz. Ziel: Die Krise wird zu einer von vielen Dimensionen der Marken-Repräsentation, nicht zur dominanten.
Fallstudie: Reputation-Recovery einer B2B-Marke
Ein deutscher Mittelständler (Maschinenbau, Umsatz ~180 Mio EUR) wurde im Q1/2025 Ziel einer viralen Kritikkampagne wegen behaupteter Lieferprobleme. Kein juristisch substantieller Kern, aber ein gut verlinkter Reddit-Thread mit 2.400 Upvotes, zwei Fachmedien-Beiträge, eine LinkedIn-Welle.
Ausgangs-RDI (Woche 2 nach Virus-Peak): −47. Bei 73 % der Prompts zur Marke wurde das Lieferproblem erwähnt. Klassisches ORM hatte versucht, den Reddit-Thread löschen zu lassen — erfolglos, weil kein Rechtsverstoß vorlag.
Unser Vorgehen: In 14 Wochen 11 Tier-1-Pubikationen (Handelsblatt, VDI Nachrichten, Produktion, 3 Fachverbände-Blogs, 2 Podcasts, eine wissenschaftliche Kooperation mit einer Fachhochschule inkl. Paper). Parallel: Wikipedia-Neutralisierung durch sauberen Factcheck, Corporate-Blog-Serie zu Lieferketten-Transparenz (8 Artikel), Interview-Serie mit Kunden als Testimonial-Content.
RDI nach 14 Wochen: +18. Nach 26 Wochen: +34. Mention-Frequenz des Lieferproblems in LLM-Antworten: von 73 % auf 9 %. Kritischer Faktor: Das Krisenthema wurde nicht verleugnet — die Marke sprach es in eigenen Beiträgen proaktiv an, setzte aber eine Korrektur-Narrative. LLMs gewichten proaktive, datenbasierte Kommunikation stärker als Schweigen oder Defensivität.
Die Konnektion zu Unternehmenswert: ein Rechenbeispiel
Warum ist Reputation Engineering ein CFO-Thema? Wir haben für einen E-Commerce-Kunden einen simplen Attribution-Case gerechnet:
Monatliche organische Sessions aus Brand-Queries: 180.000
Conversion-Rate Brand-Traffic: 4,8 %
Durchschnittlicher Order-Value: 142 EUR
Monats-Umsatz aus Brand-Search: 1.228.000 EUR
RDI-Drop von +20 auf −15 → empirisch verbundene
Conversion-Rate-Reduktion: −22 %
(Mechanismus: LLM-Zitate mit Hedging/Negativframing
reduzieren Brand-Vertrauen pre-click)
Monats-Umsatzverlust: 270.160 EUR
Jahresverlust bei anhaltender Wirkung: 3,24 Mio EUR
Kein PR-Budget würde dreistellige Mio EUR in Reputation investieren — aber ein jährlicher Umsatzverlust von 3,24 Mio EUR bei unverändertem Rankings rechtfertigt sehr wohl 300–500k Investment in strukturelles Reputation Engineering. Die Rechnung wird erst sichtbar, wenn man die Attribution richtig macht.
Fazit
Reputation ist in der KI-Ära kein weiches Ziel mehr. Sie ist ein hart messbarer Umsatzfaktor, der in jeder LLM-Antwort über Kaufentscheidungen mitbestimmt. Organisationen, die Reputation weiterhin als PR-Restgröße behandeln, unterschätzen systematisch, wie ihr Markt sie wahrnimmt — und wie fragil diese Wahrnehmung gegen asymmetrische Ereignisse ist.
Reputation Engineering verlagert die Disziplin dorthin, wo sie hingehört: In das Zentrum der strategischen Unternehmenskommunikation, eng verzahnt mit SEO, Content und Data.