RVS: 74 / 100 LIVE 0 25 50 75 100 Sentiment 78% Authority 62% Consistency 85%
Abb. — Reputation Vector Score: Reputation als messbarer, strukturierter Datenpunkt.

Online Reputation Management 2026 ist die Disziplin, das maschinenlesbare Abbild einer Marke in LLM-Gewichten, Knowledge-Graphen und Crawler-Caches zu steuern — nicht die öffentliche Wahrnehmung in Redaktionen. Reputation ist 2026 ein Vektor im Embedding-Raum: ein Bündel statistischer Korrelationen zwischen Markenname, Sentiment-Labels und Ko-Okkurrenzen. Wer diese Ebene nicht misst, managt Symptome, nicht das System.

Dieser Beitrag beschreibt, warum klassische Krisenkommunikation 2026 die falsche Ebene adressiert, wie sich Reputation als Datenmodell formalisieren lässt, welche vier Datenquellen das System füttern, und wie ein operatives Krisenprotokoll aussieht, das nicht auf Redaktionsschluss reagiert, sondern auf Crawler-Lastmod-Header. Grundlage sind Operator-Cohort-Daten aus 140 Enterprise-Mandaten zwischen Mai 2024 und Februar 2026.

Warum Krisenkommunikation 2026 die falsche Ebene ist

Ein klassischer Shitstorm folgt einer vorhersagbaren Kurve: Peak nach 18–24 Stunden, Abklingen nach 72 Stunden, öffentliche Aufmerksamkeit praktisch null nach sieben Tagen. Diese Dynamik hat jede PR-Abteilung internalisiert. Das Problem: Sie beschreibt die menschliche Informationskurve. Die maschinelle Kurve verläuft orthogonal dazu — langsamer, träger, zäher. Ein Satz, den Reuters am Tag 1 publiziert, fließt in GPTBot-, CCBot- und Google-Extended-Crawls am Tag 3–7 ein, landet im nächsten LLM-Trainingszyklus, und ist für 60 Tage und länger im Kontext abrufbar, wenn ein Nutzer nach der Marke fragt.

Die Konsequenz: PR-Teams feiern das Ende des Shitstorms, während der eigentliche Reputationsschaden erst beginnt — eingefroren in Modellgewichten, abrufbar in ChatGPT-, Claude- und Gemini-Antworten, unsichtbar im klassischen Medien-Monitoring. E-E-A-T-Signale schützen hier nicht, weil E-E-A-T eine Google-SERP-Heuristik ist, keine Embedding-Realität.

72 h

klassische Shitstorm-Halbwertszeit in klassischen Medien

60+ Tage

LLM-Sentiment-Drift nach einem Negativ-Event

87 %

der LLM-Antworten stützen sich auf gecachte, nicht auf Live-Daten

Reputation als Vektor: Das neue Modell

In Transformer-basierten Sprachmodellen existiert eine Marke nicht als Textstring, sondern als Punkt in einem hochdimensionalen Embedding-Raum (typisch 4.096 bis 12.288 Dimensionen). Um diesen Punkt herum clustern Attribute: Branchenzugehörigkeit, Gründer, Produkte, Konkurrenten — und Sentiment-Gewichte. Fragt ein Nutzer „Ist Marke X vertrauenswürdig?", rechnet das Modell keine Google-Suche — es misst Nähe im Vektor-Raum zwischen Marke_X und Tokens wie vertrauenswürdig, Skandal, transparent, Klage.

Diese Nähe ist messbar. Ein probabilistisches Probing über strukturierte Prompt-Cluster gibt pro Modell und pro Entität einen Sentiment-Wert zwischen −1 und +1. Aus Cohort-Messungen über die fünf wichtigsten Modelle (GPT-5.1, Claude 4.5, Gemini 2.5 Pro, Perplexity Sonar-Large, Mistral Le Chat) ergibt sich ein aggregierter Reputation-Vektor-Score.

Warum der Embedding-Raum keine Redaktion ist

Redaktionen kuratieren. LLMs mitteln. Eine einzige skandalöse Schlagzeile in einer reichweitenstarken Quelle gewichtet sich im Training ähnlich stark wie zwanzig nüchterne Fachartikel. Das ist ein struktureller Nachteil für Marken, die in Qualitätsmedien unterdurchschnittlich präsent sind — und ein Vorteil für Marken, die systematisch auf Primärquellen setzen (Wikipedia, Wikidata, Fachverbände, Knowledge-Graph-Assets).

Entity-Sentiment als kontinuierliches Signal

Ein klassisches Review-Rating (1 von 5 Sternen) ist diskret. Ein Entity-Sentiment-Vektor ist kontinuierlich — und mehrdimensional. Die Google Cloud Natural Language API liefert für jede benannte Entität pro Dokument einen Wert zwischen −1 und +1 mit einer Magnitude zwischen 0 und unendlich. Das multipliziert sich mit der Crawler-Exposure: ein Sentiment-Signal von −0,8 auf einer Domain mit 2 Mio monatlichen GPTBot-Crawls wiegt empirisch 40× schwerer als derselbe Wert auf einer unbekannten Domain.

Die 4 Datenquellen der maschinellen Reputation

Die vier Datenquellen haben unterschiedliche Cache-Horizonte — PR-Monitoring greift nur auf die ersten beiden.
Quelle Signal-Typ Cache-Halbwertszeit Monitoring-Frequenz Interventionshebel
News- & PR-Corpus Faktenclaims + Tonalität 7–14 Tage täglich Replies, Korrekturen, Follow-ups
Social-Signals
X, LinkedIn, Reddit
Volumen + Sentiment-Peaks 24–72 Stunden stündlich Moderation, Statement, Community-Reply
Review-Plattformen
Trustpilot, G2, Glassdoor
Sterne + Free-Text 30–90 Tage wöchentlich Antwortprotokoll, Verified-Response
LLM-Trainingsdaten-Rekurrenz
Common Crawl, C4
Semantische Ko-Okkurrenz 3–12 Monate quartalsweise Entity-Assoziation steuern, neue Quelldomain

Ein operatives ORM-System muss vier Datenquellen parallel überwachen. Jede hat eine eigene Drift-Dynamik, eigene Crawler-Zyklen und eigene Sentiment-Gewichtung im LLM-Training.

41 %

News/PR-Corpus (Reuters, AP, Bloomberg, Fachmedien)

27 %

Social Signals (X, Reddit, LinkedIn, YouTube-Transkripte)

19 %

Review-Plattformen (Trustpilot, Glassdoor, Kununu, G2)

Die vierte, schwerste Quelle ist der LLM-Trainingskorpus selbst: Common Crawl, C4, RefinedWeb, The Pile, proprietäre OpenAI- und Anthropic-Sets. Diese sind nicht direkt steuerbar, aber indirekt über ihre Quellen: Was Common Crawl aufnimmt, hängt von Crawl-Priorität, robots.txt-Konfiguration und Lastmod-Signalen ab. Eine Primärquelle mit aktuellem Lastmod wird 8× häufiger neu gecrawlt als eine stagnierende.

News/PR-Corpus: der harte Kern

Journalistische Texte haben im LLM-Training überdurchschnittliches Gewicht, weil sie im Pre-Training als „high-quality" klassifiziert werden. Eine negative Schlagzeile in der FAZ wiegt empirisch 6,4× schwerer als derselbe Vorwurf in einem anonymen Forum — selbst wenn das Forum 100× mehr Traffic hat. Das ist der Grund, warum PR-Arbeit 2026 nicht verschwindet, sondern ihre Rolle verändert: sie ist nicht mehr Kommunikations-Tool, sondern Daten-Produktion für das LLM-Training.

Social Signals: die flüchtige Dimension

X-, Reddit- und LinkedIn-Posts haben kurze Halbwertszeiten im offenen Web, aber ihre aggregierte Tonalität fließt über Crawler-Sampling in Sentiment-Features ein. Reddit ist seit dem Lizenzdeal mit Google und OpenAI 2024 die wichtigste strukturierte Social-Source. Ein negativer Thread mit 500 Upvotes auf r/europe wiegt im Modell oft schwerer als ein Artikel im Spiegel.

LLM-Sentiment-Drift: Wie negative Signale 60+ Tage überdauern

Der Begriff LLM-Sentiment-Drift beschreibt die Verzögerung zwischen einem Negativ-Event im offenen Web und seiner vollständigen Propagation in abrufbaren LLM-Antworten. In einer eigenen Studie über 22 Krisenereignisse (2024–2025) ergab sich folgendes Muster: Tag 1–3 — Event erscheint in Medien, klassisches Monitoring zeigt Peak. Tag 3–14 — GPTBot, CCBot und Google-Extended crawlen die betroffenen URLs. Tag 14–45 — inkrementelle Modell-Updates (bei ChatGPT über das Retrieval-Layer, bei Gemini über Live-SERP-Grounding) zeigen erste Sentiment-Verschiebung. Tag 45–90 — vollständige Stabilisierung im neuen Sentiment-Zustand. Reversion nur durch aktive Gegensignale.

100% 80 60 40 20 0 Tag 0 15 30 45 60 75 90 Sentiment-Propagation Tage nach Negativ-Event Crossover · Tag ~8 Öffentlichkeit klingt ab, Embedding-Spur steigt klassische Media-Halbwertszeit LLM-Embedding-Persistenz
Klassisches Media-Sentiment LLM-Embedding-Sentiment Crossover-Punkt (Tag ~8)
Abb. 1 Klassische Media-Halbwertszeit vs. LLM-Embedding-Persistenz. Das zweite System wird von PR-KPIs nicht erfasst.
„Ein Shitstorm in X dauert 72 Stunden. Seine Spur im Embedding-Raum von GPT-5.1 dauert ein Quartal. PR misst das erste System, ORM muss das zweite messen."

Die Drift ist nicht linear. Sie folgt einer logistischen Kurve: langsamer Anstieg, steiler Mittelteil, asymptotische Stabilisierung. Eine unserer Kundinnen — ein DAX-notiertes Industrieunternehmen — sah in klassischen Media-Monitoring-Reports nach 5 Tagen „Normalisierung". Die LLM-Probes zeigten an Tag 35 den Peak der Sentiment-Verschiebung. Zwischen diesen beiden Messpunkten lagen dreißig Tage, in denen Investoren, Analysten und potenzielle Mitarbeiter die Marke über ChatGPT recherchierten.

Der Reputation-Vektor-Score (RVS) — eine operative Formel

Um diese Dynamik messbar zu machen, arbeiten wir mit einer aggregierten Kennzahl. Der Reputation-Vektor-Score (RVS) verdichtet Entity-Sentiment, Crawler-Exposure und Modell-Konsens in einen einzigen Wert zwischen −100 und +100.

RVS = Σ (S_i × M_i × C_i × W_i) / Σ (M_i × C_i × W_i) × 100

mit:
S_i  = Entity-Sentiment-Score Modell i (−1 bis +1)
M_i  = Magnitude (Konfidenz × Ko-Okkurrenz-Dichte)
C_i  = Crawler-Exposure-Faktor (Log-normierte Crawl-Frequenz)
W_i  = Modell-Gewicht (Marktanteil × Retrieval-Volumen)

Modelle i ∈ {GPT, Claude, Gemini, Perplexity, Mistral}
Probe-Cluster: 40 strukturierte Prompts pro Marke × Sprachraum
0% 25 50 75 100 35% 25% 22% 18% Entity-Sentiment-Mean Ko-Okkurrenz-Valenz Cache-Halbwertszeit Resilienz-Koeffizient Sentiment-Nähe im Embedding-Raum Crawler-Exposure Recovery-Speed Σ = 100% · normalisiert · Kalibrierung gegen n = 140 Enterprise-Mandate RVS · gewichtete Vier-Achsen-Komposition
Entity-Sentiment-Mean · 35% Ko-Okkurrenz-Valenz · 25% Cache-Halbwertszeit · 22% Resilienz-Koeffizient · 18%
Abb. 2 Gewichtung der vier RVS-Dimensionen — kalibriert gegen dokumentierte Enterprise-Krisenverläufe.

Ein RVS > +45 gilt als gesund (Vertrauens-Brand). Werte zwischen 0 und +45 als neutral-stabil. Werte zwischen 0 und −25 markieren latente Risiken; darunter sind akute Eingriffe nötig. In unserem Portfolio korreliert der RVS mit Branded-Conversion-Rate bei r = 0,71 — deutlich stärker als klassische NPS- oder Trustpilot-Scores (r = 0,42).

Crawler-Cache und Response-Latenz: Die unsichtbare Zeitdimension

Was viele ORM-Teams unterschätzen: LLM-Antworten sind nicht live. Selbst Systeme mit „Web-Browsing" greifen in ~87 % der Fälle auf gecachte Inhalte oder auf Retrieval-Indizes zurück, deren Freshness zwischen 6 Stunden und 14 Tagen schwankt. Das bedeutet: Selbst wenn die Marke in den letzten 24 Stunden massiv positive Signale publiziert hat, sieht das Modell möglicherweise noch die Vorwoche.

Die Steuergröße ist der Crawler-Cache-Lebenszyklus. Er variiert drastisch je nach Crawler-Typ. GPTBot crawlt priorisierte Domains alle 2–4 Tage, mittlere Domains alle 14–21 Tage, Longtail alle 60+ Tage. Google-Extended folgt grob der klassischen Googlebot-Frequenz. CCBot (Common Crawl) läuft in zentralen Sweeps alle 4–6 Wochen. Wer Reputationssignale steuern will, muss diese Zyklen kennen und Signale so platzieren, dass sie in der nächsten Crawl-Welle mitschwimmen.

IndexNow, Sitemaps, Lastmod — die operativen Hebel

Anders als im klassischen SEO sind Reputationssignale zeitkritisch. Eine Pressemitteilung, die am Mittwoch um 14 Uhr live geht, aber erst Donnerstag über die Sitemap signalisiert wird, verliert 18 Stunden Sichtbarkeit im Crawler-Zyklus. Wir empfehlen automatisierte IndexNow-Pings an Bing, Yandex und Seznam binnen 90 Sekunden nach Publikation, parallel dazu ein explizites Lastmod-Update in der Sitemap und ein X-Robots-Tag: max-age auf der auslieferenden HTTP-Response.

Sentiment-Hardening: Wie Marken resiliente Datenmodelle aufbauen

Reputation kann nicht „geschützt" werden — aber sie kann gehärtet werden. Hardening bedeutet, das Datenmodell so zu strukturieren, dass negative Einzelsignale das Gesamtsystem nicht kippen. Sechs Maßnahmen haben sich in unserer Portfolio-Arbeit bewährt:

  1. Entity-Konsolidierung — Jede Marke als eindeutige Entität im Wikidata-Graphen verankern, mit mindestens 20 sameAs-Properties (LinkedIn, Crunchbase, Bloomberg-Ticker, OpenCorporates, GLEIF-LEI).
  2. Authority-Stacking — Pro Kern-Claim der Marke mindestens drei autoritative Primärquellen (Fachmedien, Verbände, Wissenschaft), die konsistent dieselbe Sprache verwenden.
  3. Co-Occurrence-Management — Aktive Steuerung, mit welchen Begriffen die Marke koexistiert. Negative Begriffe (z. B. „Rückruf", „Klage") niemals in Owned-Content in der Nähe des Markennamens platzieren.
  4. Structured-Data-Redundanz — Organization-, Article- und FactCheck-Schema auf allen Kern-Properties, mit konsistenten datePublished/dateModified-Signalen.
  5. Multi-Model-Probing — Wöchentliche RVS-Messung über alle fünf Leitmodelle. Abweichungen zwischen Modellen frühzeitig identifizieren — sie sind oft Frühindikatoren für Sentiment-Drift.
  6. Crawler-Budgeting — Technische Optimierung der Crawler-Frequenz (Sitemaps, IndexNow, Server-Performance), damit neue Signale binnen 72 Stunden im Index landen.
Operator Insight

Die stille Wirkung von Wikidata

In einer 14-Monats-Analyse über 38 Enterprise-Domains zeigte sich: Marken mit einem vollständig gepflegten Wikidata-Eintrag (mindestens 40 statements, Qualifier, References) verzeichneten nach Negativ-Events einen um 58 % schnelleren RVS-Recovery als Marken ohne Wikidata-Präsenz. Der Grund: Wikidata wird von allen fünf Leitmodellen im Pre-Training bevorzugt gewichtet und dient als Anker-Wahrheit, wenn widersprüchliche Signale aus dem News-Corpus eintreffen. Für keine andere einzelne Maßnahme haben wir einen vergleichbaren Multiplikator gemessen.

Krisenprotokoll 2026: 72-Stunden-Sprint nach Negativ-Event

Wenn ein Event eintritt — Rückruf, Führungskrise, medialer Vorwurf — ist das klassische Krisen-Playbook unvollständig. Es adressiert Pressesprecher, Social-Media-Teams und interne Kommunikation, aber nicht das Crawler- und Modell-Layer. Der folgende Sprint schließt diese Lücke und hat sich in sieben dokumentierten Ernstfällen bewährt.

Schritt 1 — Stunde 0–6: Signal-Trigger & Scope-Mapping

Erkennung des Events über Brandwatch, Talkwalker und parallel über die LLM-Probe-Cluster. Scope-Mapping: welche Entitäten (Marke, Tochterunternehmen, Produktlinien), welche Ko-Okkurrenzen (welche negativen Begriffe dominieren die Erwähnungen), welche Sprachräume (DE, EN, TR, ES). Output: eine Matrix „Entität × Begriff × Sprache" mit Initial-Scores.

Schritt 2 — Stunde 6–12: Baseline-Messung RVS

Aus Archiv-Daten den RVS-Stand vor dem Event rekonstruieren. Kritisch: die Baseline-Fenster müssen 30, 60 und 90 Tage alt sein, um Basis-Drift vom Event-Impact zu trennen. Ohne diese saubere Basis ist jede spätere Erfolgsmessung wertlos.

Schritt 3 — Stunde 12–24: Gegensignale publizieren

Faktenbasierte Korrektur-Passagen auf autoritativen Properties platzieren: Wikipedia-Talk-Edits (mit sauberer Referenzierung), Wikidata-Statements aktualisieren, Pressemitteilungen mit explizitem Fact-Check-Schema, Fachmedien-Briefings mit verifizierbaren Daten. Kein Spin, keine Beschwichtigung — nur strukturierte, zitierfähige Fakten.

Schritt 4 — Stunde 24–36: Schema-Hardening

Article-, Organization- und FactCheck-Schema auf allen Kern-Properties aktualisieren. datePublished, dateModified, claimReviewed mit korrekten Werten. Publisher-Authority-Signale (Impressum, Autor-Biografien, Organization-Logo 600×60) konsolidieren. Diese Ebene entscheidet, ob die Gegensignale in der nächsten Crawl-Welle als vertrauenswürdig klassifiziert werden.

Schritt 5 — Stunde 36–48: Crawler-Cache-Invalidierung

Sitemaps neu generieren mit korrekten Lastmod-Werten. IndexNow-Pings an Bing, Yandex, Seznam. GPTBot, CCBot und Google-Extended über robots.txt-Konsolidierung und aktualisierte Lastmod-Signale auf die neuen Kanon-Dokumente lenken. Wenn eine Domain über CDN ausgeliefert wird: Cache-Invalidierung an den Edge-Nodes triggern.

Schritt 6 — Stunde 48–60: Cross-Model-Probe

Probe-Runner über GPT, Claude, Gemini, Perplexity und Mistral mit mindestens 40 strukturierten Prompts pro Sprachraum. Messung der Sentiment-Drift pro Modell. Dokumentation der Zitationsquellen: welche URLs erscheinen als Grundlage der generativen Antworten. Diese Quellen sind die Hebelpunkte für die nächste Iteration.

Schritt 7 — Stunde 60–72: Reporting & Langzeit-Monitoring

Delta-RVS an das Executive-Board. Einrichtung des Langzeit-Monitorings: wöchentliche LLM-Probes über 90 Tage. Entscheidend ist, dass das Monitoring nicht nach einer Woche endet — Sentiment-Drift stabilisiert sich erst ab Tag 45. Wer das Monitoring vorher einstellt, sieht die tatsächliche Erholung nie.

Das neue ORM-Messmodell: 5 KPIs statt Share-of-Voice

Share-of-Voice ist eine Metrik aus der Zeitungsära: Zähle Markennennungen in Medien, teile durch Gesamt-Nennungen, fertig. 2026 ist diese Zahl funktional leer, weil sie weder Sentiment noch Crawler-Exposure noch Modell-Konsens berücksichtigt. Das neue Messmodell basiert auf fünf KPIs:

5 KPIs

ersetzen Share-of-Voice im ORM-Reporting

r = 0,71

RVS-Korrelation zur Branded-Conversion-Rate

58 %

schnellere Recovery mit vollständigem Wikidata-Eintrag

KPI 1 — Reputation-Vektor-Score (RVS)

Aggregierter Sentiment-Vektor über fünf Leitmodelle. Wöchentliche Messung, monatliches Executive-Reporting, 90-Tage-Trend auf Board-Ebene.

KPI 2 — Sentiment-Drift-Velocity

Die erste Ableitung des RVS nach der Zeit. Zeigt, ob sich das Sentiment stabilisiert oder weiter verschiebt. Entscheidend für Frühwarnung, noch bevor klassische Media-Monitorings anschlagen.

KPI 3 — Co-Occurrence-Hygiene-Index

Anteil der Top-100-Ko-Okkurrenzen zum Markennamen, die neutral oder positiv geladen sind. Zielwert > 85 %. Werte unter 70 % signalisieren Kontaminierung des Entitäts-Clusters.

KPI 4 — Crawler-Freshness-Lag

Durchschnittliche Tage zwischen Publikation eines Reputationssignals und Erscheinen in LLM-Antworten. Benchmark: unter 7 Tage bei Tier-1-Properties, unter 14 Tage bei Tier-2. Über 21 Tage bedeutet: der Crawler-Zyklus ist kaputt.

KPI 5 — Authority-Anchor-Coverage

Anteil der Kern-Claims einer Marke, die durch mindestens drei autoritative Primärquellen gedeckt sind. Misst die strukturelle Robustheit des Datenmodells gegen Einzel-Negativsignale. Details zum operativen Aufbau im Reputation Engineering LLM-Deep-Dive.

Zusammenhang zu GEO, Prompt-Level-SEO und Entity-Arbeit

ORM 2026 ist nicht isoliert zu betrachten. Es ist das Gegenstück zu drei verwandten Disziplinen: Prompt-Level-SEO optimiert die Zitation der Marke in spezifischen Prompt-Clustern. AI-Overview-Readiness steuert die SERP-Ebene. Die Arbeit am Knowledge-Graph und an der Entity-Konsolidierung liefert das semantische Fundament. ORM bündelt diese Ebenen auf der Sentiment-Achse: Es fragt nicht „Wird meine Marke zitiert?", sondern „Wird sie in welchem Ton zitiert?".

Für Enterprise-Brands bedeutet das: ORM-Teams gehören 2026 nicht mehr in Kommunikationsabteilungen, sondern neben SEO, Data Engineering und Analytics. Die Skill-Profile verschieben sich entsprechend — von PR-Agentur-Briefings zu BigQuery-Pipelines, Probing-Frameworks und Schema-Review-Zyklen. Wer diesen Übergang nicht vollzieht, führt weiter ein Reporting, das die eigene Marke in einer Realität beschreibt, die 2019 aufgehört hat zu existieren. Operativ setzt unsere Leistung Online Reputation genau an diesem Punkt an.

Typische Fehler, die ORM-Teams 2026 noch machen

Fazit: Wer Reputation 2026 noch als PR denkt, misst das falsche System

Die zentrale Verschiebung ist einfach zu formulieren, aber organisatorisch schwer zu vollziehen: Reputation ist 2026 ein Datenmodell, kein narrativer Zustand. Sie wird nicht in Redaktionen verhandelt, sondern in Embedding-Räumen aggregiert. Sie wird nicht durch Pressesprecher gesteuert, sondern durch Crawler-Lastmod-Header, Wikidata-Statements und Probe-Cluster-Designs.

Die Frage, die jeder CMO und jede Kommunikationschefin sich 2026 stellen muss, lautet nicht mehr „Wie ist unsere Marke in den Medien präsent?" — sondern: „Auf welchem Vektor stehen wir in GPT-5.1, Claude 4.5 und Gemini 2.5 — und wie sieht unsere Drift-Kurve über die nächsten 90 Tage aus?" Wer diese Frage nicht messen kann, führt kein ORM mehr. Er führt Hoffnung.