Reputation Engineering für LLMs

Reputation war jahrzehntelang eine PR-Disziplin. SEO war eine Technologie-Disziplin. ORM war das ungeliebte Grenzgebiet dazwischen - oft abgeschoben in Legal-Teams, selten strategisch integriert. Diese organisatorische Trennung war funktional, solange die Signale in getrennten Kanälen verarbeitet wurden.

Mit der Verbreitung von LLMs als Informationsquelle (ChatGPT: 500+ Mio Wochen-User, Gemini: ~350 Mio, Perplexity: ~30 Mio) ist diese Trennung nicht mehr haltbar. Generative Modelle verarbeiten Brand-Mentions, Sentiment-Daten, strukturierte Trust-Signale und E-E-A-T-Indikatoren simultan - und kommunizieren das Ergebnis in einer einzigen synthetischen Antwort an den Nutzer.

Der Sentiment-Drift-Mechanismus

Der Begriff Sentiment-Drift beschreibt ein Phänomen, das wir in Kundenprojekten seit 2024 systematisch dokumentieren: Die Darstellung einer Marke in LLM-Antworten verschiebt sich über die Zeit - auch ohne dass sich die objektive Datenlage ändert.

Die Ursachen liegen in zwei Mechanismen:

Training-Layer-Drift

LLMs werden regelmäßig auf neue Daten trainiert. Zwischen Trainingszyklen bleiben Informationen in der „Gedächtnisschicht" des Modells - auch wenn sie in der aktuellen Web-Realität längst überholt sind. Ein viraler Negativ-Thread auf Reddit oder eine negative Fachmedien-Berichterstattung kann sich in der Trainingsdata einnisten und Monate bis Jahre in der Modellwahrnehmung präsent bleiben.

RAG-Layer-Drift

Moderne Systeme wie Perplexity, ChatGPT Search und Google AI Overviews nutzen Retrieval Augmented Generation: Bei einer Query wird live aus dem Web geholt. Hier wirkt sich Sentiment noch schneller aus. Wenn bei einem Brand-Query „[Markenname] Erfahrungen" die Top-Ergebnisse aus Reddit-Kritik, Trustpilot-Beschwerden und einem kritischen Blog bestehen, synthetisiert das LLM diese Signale in die Antwort - selbst wenn 95 % der Kundenerfahrungen positiv sind.

63%

der User treffen Kaufentscheidungen auf Basis von LLM-generierten Markenbewertungen (Gartner 2025)

60+ Tage

typische Persistenz negativer Sentiment-Signale in LLM-Antworten

8:1

Ratio notwendiger positiver Signale zur Kompensation eines viralen Negativ-Ereignisses

Warum klassisches ORM nicht mehr ausreicht

Das etablierte ORM-Playbook - Review-Management, Suppression-Content, Legal-Requests an Google - wurde für eine Welt entwickelt, in der Nutzer Suchergebnisse selbst lesen und bewerten. In der generativen Welt entscheidet die KI, was relevant ist, und präsentiert es als konsolidierte Antwort. Der Nutzer sieht das Verdict, nicht die Quellen.

Konkret versagen folgende klassische Taktiken:

Suppression-Content: Funktioniert für SERP-Positionen, aber nicht für LLMs, die Inhalte semantisch verstehen. Ein Blog-Post „Unternehmen X hat dieses Problem nicht" kann als Bestätigung des Problems paraphrasiert werden.
Review-Gamification: LLMs erkennen auffällige Review-Muster (Sentiment-Bias, Phrasenwiederholungen) und gewichten solche Quellen ab.
Rechtliche Take-Downs: Entfernt Inhalte aus Live-Index, aber nicht aus Trainingsdaten von Modellen, die auf älteren Crawls basieren.
PR-Gegennarrative: Ohne Entity-Strategie werden sie nicht mit der Marke verknüpft gespeichert.

Das Reputation-Engineering-Modell

Reputation Engineering ist der systematische Aufbau von Trust-Signalen, die über alle Layern einer KI-Antwort wirken: Training-Korpus, RAG-Retrieval, On-Page-Signale und strukturierte Daten.

Ebene 1: Training-Layer-Signale

Inhalte müssen in LLM-Trainingsquellen landen. Die dominierenden Quellen (Common Crawl, Wikipedia, qualifizierte News, kuratierte Datasets) bestimmen, wie eine Marke in zukünftigen Modell-Iterationen gespeichert wird. Maßnahmen:

Wikipedia-Artikel mit verifizierter Relevanz (Notability) und qualifizierten Quellen
Beiträge in hochautoritären Fachmedien mit klarer Autorenschaft
Akademische Zitationen wo möglich (Research Partnerships)
Podcast-Transkripte und Video-Captions (werden von vielen Modellen gescrapet)

Ebene 2: RAG-Layer-Signale

Was bei Live-Queries abgerufen wird. Hier wirkt klassische SEO kombiniert mit Zitations-optimiertem Content:

Dominanz der Brand-SERP (Position 1-10 für „[Markenname]", „[Markenname] Erfahrungen", „[Markenname] Bewertung")
Hochautoritative Eigen-Domains mit klarer Informationsarchitektur
Aktualisierte FAQ-Schemas mit Antworten auf kritische Fragen
Strukturierte Review-Aggregation über AggregateRating-Schema

Ebene 3: Sentiment-Monitoring in generativen Engines

Klassisches Brand-Monitoring (Brandwatch, Talkwalker, Meltwater) reicht nicht mehr. Nötig ist Prompt-basiertes Sentiment-Tracking:

Wöchentliche Audits gegen 100-300 relevante Brand-Prompts
Messung: Wird die Marke genannt? In welchem Kontext? Welches Sentiment? Welche Wettbewerber werden als Alternativen erwähnt?
Tools: Profound, Otterly.ai, BrandRank.ai, Custom-Setups mit API-Zugriff

„Reputation im LLM-Zeitalter ist nicht mehr die Frage, was man sagt. Es ist die Frage, wie Modelle die Welt darüber lernen. Und diese Lernprozesse laufen in Dimensionen, die kein PR-Team bis vor drei Jahren kannte."

Fall-Muster: Wie Krisen in LLMs anders verlaufen

In der Analyse von 40+ Reputations-Krisen europäischer Marken (2023-2025) zeigt sich ein konsistentes Muster, das sich fundamental von klassischen PR-Krisen unterscheidet:

Tag 0-3: Viraler Pik

Negativer Event geht viral auf Social Media, Reddit, X. Klassische PR-Response: Statement, Erklärung, ggf. Entschuldigung.

Tag 3-21: Klassische Medienberichterstattung

Fachmedien greifen das Thema auf. SEO-seitig zeigen sich Ranking-Verschiebungen. Search-Volume für kritische Brand-Queries steigt.

Tag 21-60: Der unsichtbare LLM-Lag

Während sich die Google-SERP bereits normalisiert und PR-Zyklen abschließen, beginnen LLMs erst, die Krise zu „verstehen". Modelle lernen die Assoziation Marke ↔ Krisenthema und geben diese in Antworten wieder. Peak der LLM-Sichtbarkeit der Krise: Tag 30-45.

Tag 60-180: Sentiment-Persistenz

Ohne aktive Gegenmaßnahmen bleibt die Krise in LLM-Antworten präsent. Besonders robust: Associations mit spezifischen Themen (z. B. „Unternehmen X" ↔ „Datenschutzproblem"). Diese Associations halten sich durch Retraining-Zyklen, weil sie in der Training-Data-Verteilung dominant sind.

Operator Insight

Die 8:1-Regel

Zur Kompensation eines viralen Negativ-Ereignisses in LLM-Wahrnehmung sind empirisch etwa acht positive qualifizierte Content-Signale erforderlich - über Fachmedien, Wikipedia-Revisions, wissenschaftliche Artikel oder hochautoritative Eigen-Publikationen. Diese Ratio ist nicht in Pressemitteilungen oder Social-Posts erreichbar. Reputation Engineering braucht strategische Content-Investitionen über 6-12 Monate, nicht PR-Taktik über 48 Stunden.

Die fünf Prinzipien modernen Reputation Engineerings

Proaktiv statt reaktiv: Trust-Signale werden vor der Krise aufgebaut. Nach der Krise ist es zu spät für Training-Layer-Impact.
Quelle vor Kanal: Ein qualifizierter Fachmedien-Artikel wirkt in LLMs mehr als 100 Social-Posts. Distribution-Strategie muss auf LLM-relevante Quellen ausgerichtet sein.
Entity-Konsistenz: Jedes positive Signal muss mit der Marken-Entität verknüpft sein. Lose Inhalte, die nicht klar zur Marke gehören, wirken nicht.
Langfristige Frequenz: Das Gedächtnis von LLMs ist additiv. Konstante, qualifizierte Signale über Monate schlagen kurze, intensive Kampagnen.
Messung auf Prompt-Ebene: Reputations-KPIs werden direkt in LLM-Antworten gemessen - nicht in Traditional Brand Trackers allein.

Die Reputation-Impact-Formel: wie man Sentiment-Drift quantifiziert

Reputation ist messbar. Wir verwenden einen Composite-Score - den Reputation Drift Index (RDI) - um die Entwicklung der Marken-Wahrnehmung in LLMs zu tracken. Der RDI liegt zwischen −100 und +100 und wird wöchentlich berechnet.

RDI = (Σ (s_i × w_i × c_i)) / (Σ w_i) × 100

mit:
s_i  = Sentiment-Score der i-ten Prompt-Antwort (−1 negativ, 0 neutral, +1 positiv)
w_i  = Prompt-Gewicht (Business-Relevanz × Prompt-Frequenz im Real-Traffic)
c_i  = Confidence-Score (wie deutlich das Sentiment im Text ist, 0-1)

Test-Set:  200 Brand-relevante Prompts über 4 LLMs = 800 Abfragen/Woche
Threshold: RDI > +30 = gesund; 0-30 = neutral; −30-0 = Warnung; < −30 = Kritik

Für die Sentiment-Klassifikation nutzen wir zwei unabhängige Models (GPT-4o-mini + Claude Haiku) im Cross-Validation-Modus. Disagreements werden manuell gereviewed. Die Inter-Annotator-Agreement liegt in unseren Kunden-Setups bei κ = 0,81 - operativ belastbar.

Source-Weighting: welche Quellen das Modell-Gedächtnis prägen

Nicht alle Quellen wirken gleich. Wir arbeiten mit einem internen Source-Weight-Index, der Publikationen in vier Tiers einteilt. Die Tier-Zuordnung basiert auf (a) Präsenz in Common Crawl, (b) domänenspezifische Authority, (c) Frequenz als Zitations-Quelle in LLM-Outputs.

Tier 1

Wikipedia, Wikidata, Reuters, AP, Handelsblatt, FAZ, Nature - Faktor 10

Tier 2

Branchenleitmedien, etablierte Fachverlage, Universitäten - Faktor 5

Tier 3

Corporate-Blogs mit Authority, Mid-Tier-Fachmedien - Faktor 2

Die praktische Konsequenz: Ein einziger verifizierter Wikipedia-Edit mit sauberer Sekundärquelle kann mehr Reputation-Impact erzeugen als 50 Corporate-Blog-Posts. Wer Reputation-Budget auf Tier-3-Distribution verschwendet, verschwendet Budget.

Tutorial: Reputation-Defense-Setup in 30 Tagen

Woche 1 - Audit & Baseline

200 Brand-Prompts gegen alle 4 LLMs ausspielen, RDI berechnen. Parallel: Brand-SERP-Audit für Top-30 Brand-Queries in Google, Bing, DuckDuckGo. Identifikation aller Quellen, die in Top-10 erscheinen. Anlegen eines Reputation-Inventars: jede erwähnende Quelle mit Sentiment, Tier, Zugriff-Status.

Woche 2 - Quick-Wins sichern

Offensichtliche Lücken schließen: Knowledge Panel beanspruchen, Wikidata-Item aktualisieren, Brand-FAQ-Schema live nehmen, AggregateRating auf der Homepage implementieren, negative Reviews mit verifizierter Gegendarstellung beantworten (nicht löschen lassen - das wirkt in LLMs schlechter als eine sichtbare, souveräne Antwort).

Woche 3 - Tier-1-Content-Sprint

Mindestens 3 substantielle Pitches an Tier-1-Publikationen (Expertenbeitrag, Daten-Story, Interview). Parallel: Wikipedia-Notability prüfen; wenn erreicht, ein neutraler Artikel-Entwurf in den Draft-Namespace (eigene Edits sind COI - besser ein erfahrener Autor extern).

Woche 4 - Infrastruktur

Wöchentliches Prompt-Monitoring-Dashboard aufsetzen. Alert-Logik: RDI-Drop > 15 Punkte in 7 Tagen → automatisierter Ping an Comms-Lead. Zweites Alert: neue Entity-Associations, die in den Vorwochen nicht auftauchten → mögliche aufkommende Krise.

Krisenplaybook: die ersten 72 Stunden entscheiden nicht mehr alleine

Im klassischen Krisenmanagement galt: „Die ersten 72 Stunden entscheiden alles." Das ist in der LLM-Ära nur noch halbrichtig. Die ersten 72 Stunden entscheiden den kurzfristigen SERP- und Social-Impact. Die nächsten 30-90 Tage entscheiden den LLM-Impact, der eine Krise potenziell über Jahre konserviert.

Unser 3-Phasen-Playbook:

Phase 1 (Tag 0-3) - Containment. Klassische Krisen-PR: Statement, Ownership, Korrektur. Parallel: Tier-1-Quellen mit validiertem Faktencheck briefen, damit die erste Welle der Berichterstattung balanced ist.

Phase 2 (Tag 3-30) - Narrative-Reinforcement. Zehn bis fünfzehn qualifizierte Follow-up-Beiträge mit konstruktivem Framing. Entscheidend: In jedem Beitrag muss die Marke im selben Absatz wie die Lösung/Reaktion erscheinen. So verschiebt sich die Ko-Okkurrenz in den LLM-Trainingsdaten weg vom Problem hin zur Korrektur.

Phase 3 (Tag 30-180) - Entity-Reframing. Neue Ko-Okkurrenz-Felder aktiv bespielen: die Marke tritt in Kontexten auf, die mit dem Krisenthema gar nichts zu tun haben - Innovation, Gesellschafts-Engagement, operative Exzellenz. Ziel: Die Krise wird zu einer von vielen Dimensionen der Marken-Repräsentation, nicht zur dominanten.

Fallstudie: Reputation-Recovery einer B2B-Marke

Ein deutscher Mittelständler (Maschinenbau, Umsatz ~180 Mio EUR) wurde im Q1/2025 Ziel einer viralen Kritikkampagne wegen behaupteter Lieferprobleme. Kein juristisch substantieller Kern, aber ein gut verlinkter Reddit-Thread mit 2.400 Upvotes, zwei Fachmedien-Beiträge, eine LinkedIn-Welle.

Ausgangs-RDI (Woche 2 nach Virus-Peak): −47. Bei 73 % der Prompts zur Marke wurde das Lieferproblem erwähnt. Klassisches ORM hatte versucht, den Reddit-Thread löschen zu lassen - erfolglos, weil kein Rechtsverstoß vorlag.

Unser Vorgehen: In 14 Wochen 11 Tier-1-Pubikationen (Handelsblatt, VDI Nachrichten, Produktion, 3 Fachverbände-Blogs, 2 Podcasts, eine wissenschaftliche Kooperation mit einer Fachhochschule inkl. Paper). Parallel: Wikipedia-Neutralisierung durch sauberen Factcheck, Corporate-Blog-Serie zu Lieferketten-Transparenz (8 Artikel), Interview-Serie mit Kunden als Testimonial-Content.

RDI nach 14 Wochen: +18. Nach 26 Wochen: +34. Mention-Frequenz des Lieferproblems in LLM-Antworten: von 73 % auf 9 %. Kritischer Faktor: Das Krisenthema wurde nicht verleugnet - die Marke sprach es in eigenen Beiträgen proaktiv an, setzte aber eine Korrektur-Narrative. LLMs gewichten proaktive, datenbasierte Kommunikation stärker als Schweigen oder Defensivität.

Die Konnektion zu Unternehmenswert: ein Rechenbeispiel

Warum ist Reputation Engineering ein CFO-Thema? Wir haben für einen E-Commerce-Kunden einen simplen Attribution-Case gerechnet:

Monatliche organische Sessions aus Brand-Queries:   180.000
Conversion-Rate Brand-Traffic:                         4,8 %
Durchschnittlicher Order-Value:                         142 EUR
Monats-Umsatz aus Brand-Search:                    1.228.000 EUR

RDI-Drop von +20 auf −15 → empirisch verbundene
Conversion-Rate-Reduktion:                             −22 %
(Mechanismus: LLM-Zitate mit Hedging/Negativframing
 reduzieren Brand-Vertrauen pre-click)

Monats-Umsatzverlust:                                270.160 EUR
Jahresverlust bei anhaltender Wirkung:             3,24 Mio EUR

Kein PR-Budget würde dreistellige Mio EUR in Reputation investieren - aber ein jährlicher Umsatzverlust von 3,24 Mio EUR bei unverändertem Rankings rechtfertigt sehr wohl 300-500k Investment in strukturelles Reputation Engineering. Die Rechnung wird erst sichtbar, wenn man die Attribution richtig macht.

Fazit

Reputation ist in der KI-Ära kein weiches Ziel mehr. Sie ist ein hart messbarer Umsatzfaktor, der in jeder LLM-Antwort über Kaufentscheidungen mitbestimmt. Organisationen, die Reputation weiterhin als PR-Restgröße behandeln, unterschätzen systematisch, wie ihr Markt sie wahrnimmt - und wie fragil diese Wahrnehmung gegen asymmetrische Ereignisse ist.

Reputation Engineering verlagert die Disziplin dorthin, wo sie hingehört: In das Zentrum der strategischen Unternehmenskommunikation, eng verzahnt mit SEO, Content und Data.

Reputation als Umsatzfaktor: Wie LLM-Sentiment-Drift Marken still entwertet.

Der Sentiment-Drift-Mechanismus

Training-Layer-Drift

RAG-Layer-Drift

Warum klassisches ORM nicht mehr ausreicht

Das Reputation-Engineering-Modell

Ebene 1: Training-Layer-Signale

Ebene 2: RAG-Layer-Signale

Ebene 3: Sentiment-Monitoring in generativen Engines

Fall-Muster: Wie Krisen in LLMs anders verlaufen

Tag 0-3: Viraler Pik

Tag 3-21: Klassische Medienberichterstattung

Tag 21-60: Der unsichtbare LLM-Lag

Tag 60-180: Sentiment-Persistenz

Die 8:1-Regel

Die fünf Prinzipien modernen Reputation Engineerings

Die Reputation-Impact-Formel: wie man Sentiment-Drift quantifiziert

Source-Weighting: welche Quellen das Modell-Gedächtnis prägen

Tutorial: Reputation-Defense-Setup in 30 Tagen

Woche 1 - Audit & Baseline

Woche 2 - Quick-Wins sichern

Woche 3 - Tier-1-Content-Sprint

Woche 4 - Infrastruktur

Krisenplaybook: die ersten 72 Stunden entscheiden nicht mehr alleine

Fallstudie: Reputation-Recovery einer B2B-Marke

Die Konnektion zu Unternehmenswert: ein Rechenbeispiel

Fazit

Murat Ulusoy

Wie wird Ihre Marke in ChatGPT & Perplexity wahrgenommen?

Der Sentiment-Drift-Mechanismus

Training-Layer-Drift

RAG-Layer-Drift

Warum klassisches ORM nicht mehr ausreicht

Das Reputation-Engineering-Modell

Ebene 1: Training-Layer-Signale

Ebene 2: RAG-Layer-Signale

Ebene 3: Sentiment-Monitoring in generativen Engines

Fall-Muster: Wie Krisen in LLMs anders verlaufen

Tag 0-3: Viraler Pik

Tag 3-21: Klassische Medienberichterstattung

Tag 21-60: Der unsichtbare LLM-Lag

Tag 60-180: Sentiment-Persistenz

Die 8:1-Regel

Die fünf Prinzipien modernen Reputation Engineerings

Die Reputation-Impact-Formel: wie man Sentiment-Drift quantifiziert

Source-Weighting: welche Quellen das Modell-Gedächtnis prägen

Tutorial: Reputation-Defense-Setup in 30 Tagen

Woche 1 - Audit & Baseline

Woche 2 - Quick-Wins sichern

Woche 3 - Tier-1-Content-Sprint

Woche 4 - Infrastruktur

Krisenplaybook: die ersten 72 Stunden entscheiden nicht mehr alleine

Fallstudie: Reputation-Recovery einer B2B-Marke

Die Konnektion zu Unternehmenswert: ein Rechenbeispiel

Fazit

Murat Ulusoy

Wie wird Ihre Marke in ChatGPT & Perplexity wahrgenommen?

Verwandte Insights

GEO vs. SEO: Warum Generative Engine Optimization eine neue Disziplin ist.

Prompt-Level-SEO: Wie Marken in ChatGPT-Antworten systematisch erscheinen.

Multilingual LLM-SEO: Wie Sichtbarkeit über Sprachräume skaliert.

Brand SERP optimieren: 18-Monate-Roadmap.

Claude Citation: Constitutional-AI-Präferenzen.

Author-Entity & E-E-A-T: Sieben Schichten.