Zurück zum Blog

LLM Visibility Score selbst berechnen: Methodik, Formel und kostenlose Vorlage

ROI & Tracking

28.05.2026

Der LLM Visibility Score ist 2026 das wichtigste GEO-KPI, das die meisten DACH-Brands trotzdem nicht selbst berechnen können. Tools wie Profound, Peec AI oder AthenaHQ liefern proprietäre Werte, aber wer ohne Tool starten oder eigene Cross-Validation aufbauen will, braucht eine eigene Formel mit klarer Methodik.

Dieser Artikel zeigt die konkrete Methodik. Wir erklären, welche Komponenten in einen seriösen LLM-Visibility-Score gehören, wie Sie ihn ohne Tool berechnen, welche kostenlose Vorlage funktioniert und welche Reporting-Patterns wir bei rankprompt.de in Live-Kundenprojekten einsetzen.

Was ein LLM Visibility Score überhaupt misst

Die kurze Antwort: wie häufig und wie hochwertig Ihre Marke in KI-Antworten auftaucht.

Drei Dimensionen, die ein seriöser Score abdeckt. Erstens die reine Citation-Frequenz, also wie oft Ihre Marke pro relevanter Anfrage genannt wird. Zweitens die Citation-Qualität, also in welchem Kontext und mit welchem Sentiment. Drittens die Citation-Tiefe, also ob nur die Marke genannt wird oder auch konkrete Produkte und URLs.

Was ein guter Score nicht ist. Kein Single-Number-Wert. Wer den LLM-Visibility-Score auf eine Zahl reduziert, verliert Aussagekraft. Ein 70-Punkte-Score mit hoher Frequenz aber niedrigem Sentiment ist anders zu bewerten als ein 70-Punkte-Score mit moderater Frequenz aber hohem Sentiment. Reporting muss diese Trennung erhalten.

Warum die Selbstberechnung sinnvoll ist. Erstens für Cross-Validation gegen Tool-Werte. Zweitens für Brands ohne Tool-Budget. Drittens für tiefes Methodik-Verständnis, das kein Tool-Dashboard liefert.

Eine HubSpot-Erhebung an 600 Marketing-Verantwortlichen zeigt, dass 47 Prozent der Brands 2026 keinen klaren LLM-Visibility-KPI definiert haben (HubSpot State of Marketing, 2026). Wer den Score selbst berechnen kann, ist diesen Brands strukturell voraus.

Welche Komponenten in einen LLM Visibility Score gehören

Fünf Komponenten, die wir in unserer Beratungspraxis konsistent nutzen. Mehr dazu in unserem GEO Reporting Template.

Komponente 1: Citation-Frequenz pro Plattform. Anzahl Citations pro 100 relevante Prompts pro Plattform. Wenn ChatGPT bei 100 relevanten Anfragen Ihre Marke 23-mal nennt, ist die Frequenz 23 Prozent. Details finden Sie in unserem GEO ROI.

Komponente 2: Citation-Qualität (Sentiment). Verteilung der Citations nach positivem, neutralem und negativem Sentiment. Eine Marke mit 80 Prozent positiven und 5 Prozent negativen Citations bewertet anders als 100 Prozent positive Citations ohne Differenzierung.

Komponente 3: Citation-Tiefe. Wird die Marke nur genannt, oder kommen Produkt-Details, URLs und Use-Case-Bezug dazu? Reine Marken-Nennungen sind weniger wertvoll als detaillierte Empfehlungs-Kontexte.

Komponente 4: Plattform-Verteilung. Sind Sie nur in ChatGPT sichtbar oder auch in Perplexity und Gemini? Multi-Plattform-Sichtbarkeit ist robuster gegen Plattform-spezifische Algorithmus-Änderungen.

Komponente 5: Wettbewerber-Benchmark. Wie viel Ihrer Citations gehen an Sie versus Top-3-Wettbewerber? Eine Marke mit 30 Prozent Citation-Anteil bei dominanten Wettbewerbern ist anders zu bewerten als 30 Prozent in einem fragmentierten Markt.

Die konkrete Score-Formel

Eine zusammengesetzte Formel mit klarer Methodik.

Grundformel. Visibility-Score = Frequenz-Score × Qualitäts-Faktor × Tiefe-Faktor × Plattform-Faktor.

Frequenz-Score. Anzahl Citations pro 100 Prompts, normiert auf eine 0-bis-100-Skala. Bei einer Frequenz von 30 Prozent ist der Score 30. Bei 0 Prozent ist er 0, bei 100 Prozent maximal 100.

Qualitäts-Faktor. Sentiment-Index zwischen 0,5 und 1,5. Brand mit 80 Prozent positiven, 15 Prozent neutralen und 5 Prozent negativen Citations: Faktor 1,2. Brand mit 50/40/10 Verteilung: Faktor 0,9.

Tiefe-Faktor. Anteil detaillierter Citations zwischen 0,7 und 1,3. Wenn 40 Prozent der Citations Produkt-Details enthalten: Faktor 1,1. Wenn nur 10 Prozent Details haben: Faktor 0,8.

Plattform-Faktor. Anzahl aktiv zitierter Plattformen zwischen 0,8 und 1,3. Eine Plattform: Faktor 0,8. Drei Plattformen: Faktor 1,1. Vier oder mehr: Faktor 1,3.

Komponente	Wertebereich	Beispiel-Wert
Frequenz-Score	0 bis 100	30 (bei 30 Prozent Frequenz)
Qualitäts-Faktor	0,5 bis 1,5	1,2 (bei gutem Sentiment)
Tiefe-Faktor	0,7 bis 1,3	1,1 (bei moderater Detail-Tiefe)
Plattform-Faktor	0,8 bis 1,3	1,1 (bei drei Plattformen)
Visibility-Score (Beispiel)	0 bis 250	43,6 (= 30 × 1,2 × 1,1 × 1,1)

Wie Sie die Daten ohne Tool sammeln

Drei Schritte für die manuelle Datenerhebung.

Schritt 1: Prompt-Set definieren. 30 bis 50 Marken-relevante Prompts in 5 Kategorien: Brand-Direkt-Anfragen, Kategorie-Anfragen, Vergleichs-Anfragen, Long-Tail-Operator-Anfragen, Use-Case-Anfragen. Aufwand: 60 bis 90 Minuten Erst-Erstellung.

Schritt 2: Plattformen testen. Pro Prompt einmal in ChatGPT, Perplexity und Gemini abfragen. Mindestens drei Wiederholungen pro Prompt, um probabilistische Schwankungen abzufangen. Aufwand: 2 bis 3 Stunden pro Mess-Run für 30 Prompts auf drei Plattformen.

Schritt 3: Ergebnisse dokumentieren. Pro Antwort fünf Datenpunkte: Wurde Marke genannt? Mit welchem Sentiment? Mit welcher Detail-Tiefe? Welche URL wurde verlinkt? Welche Wettbewerber wurden auch genannt? Diese Daten in eine Tabelle schreiben.

Eine eigene Auswertung an 47 DACH-Kundenprojekten zeigt: manuelle Datenerhebung dauert pro Mess-Run 2 bis 4 Stunden, ist aber strukturell wertvoller als reine Tool-Werte, weil Operator die Antworten direkt sieht und Patterns erkennt, die Tool-Aggregationen verbergen (rankprompt.de Visibility-Audit, 2026).

Welche kostenlose Vorlage funktioniert

Drei Vorlagen-Typen, die wir Kunden zur Verfügung stellen.

Vorlage 1: Google-Sheets-Tracker. Spalten für Prompt, Plattform, Marken-Nennung, Sentiment, Tiefe, verlinkte URL, Wettbewerber-Nennungen. Pro Mess-Run eine eigene Tab-Sheet, mit Trend-Analyse über mehrere Mess-Runs.

Vorlage 2: Notion-Datenbank. Strukturiertere Variante mit Filter-Optionen pro Kategorie, Plattform und Zeitraum. Geeignet für Teams mit mehreren Operatoren, weil Notion-Sharing einfacher ist als Google-Sheets.

Vorlage 3: Eigenes Skript mit Claude Code. Wer technisch versiert ist, baut einen automatisierten Tracker, der pro Woche 50 Prompts gegen drei Plattformen abfragt und Ergebnisse in eine SQLite-Datenbank schreibt. Aufwand: 8 bis 16 Stunden Erst-Erstellung. Mehr zur technischen Umsetzung in unserem Artikel zum Claude-Code-Workflow für GEO.

Welche Reporting-Patterns funktionieren

Drei Reports aus unserer Beratungspraxis.

Report 1: Visibility-Score-Trend über Zeit. Pro Monat den aktuellen Score, plus Vergleich mit Vormonat. Visualisierung als Linien-Diagramm. Geschäftsführer verstehen Trends visuell, ohne tiefe GEO-Kenntnisse.

Report 2: Komponenten-Aufschlüsselung. Pro Quartal die einzelnen Komponenten (Frequenz, Qualität, Tiefe, Plattform) mit Veränderungen. Diese Aufschlüsselung zeigt, wo strategische Hebel ansetzen müssen, statt nur den Gesamt-Score zu kommunizieren.

Report 3: Wettbewerber-Benchmark. Eigener Score gegen Top-3-Wettbewerber, idealerweise mit gleicher Methodik. Diese Vergleichs-Schicht ist die wertvollste Information für Stakeholder-Diskussionen, weil sie strategische Position direkt sichtbar macht.

Welche typischen Score-Patterns wir sehen

Drei Pattern aus 47 DACH-Kundenprojekten.

Pattern 1: Score steigt nicht linear. Brands mit aktiver GEO-Strategie sehen typisch Score-Sprünge nach 3 bis 6 Monaten und nach 12 bis 18 Monaten. Zwischen diesen Sprüngen oft Plateau-Phasen, in denen sich Daten konsolidieren.

Pattern 2: Frequenz steigt schneller als Qualität. Wer in den ersten 6 Monaten Citation-Frequenz aufbaut, sieht Qualitäts-Faktor erst später nachziehen. Das ist normal, weil Sentiment und Detail-Tiefe längere Aufbau-Pfade brauchen als reine Frequenz.

Pattern 3: Plattform-Verteilung verändert sich. Brands mit Reddit-Strategie sehen Perplexity-Score schneller wachsen als ChatGPT. Brands mit Wikipedia-Strategie sehen ChatGPT-Score schneller wachsen. Diese Verteilung ist Steuerungs-Hebel, nicht zufällig.

Welche Anti-Patterns wir bei der Score-Berechnung sehen

Vier Muster aus Beratungs-Audits.

Anti-Pattern 1: Single-Number-Score. Brands aggregieren alle Komponenten zu einer Zahl und kommunizieren nur diese. Verlust an Aussagekraft. Lösung: Komponenten getrennt halten.

Anti-Pattern 2: Zu kleines Prompt-Set. 10 oder 15 Prompts sind statistisch nicht belastbar. Mindest-Standard sind 30 bis 50 Prompts pro Mess-Run.

Anti-Pattern 3: Score ohne Wettbewerber-Benchmark. Eigene Score-Werte ohne Vergleichs-Anker sind kontextlos. Wer 30 Punkte hat, weiß nicht, ob das gut oder schlecht ist, ohne zu wissen, wo Wettbewerber liegen.

Anti-Pattern 4: Fehlende Wiederholung pro Prompt. KI-Modelle generieren probabilistisch. Single-Run-Daten sind unzuverlässig. Mindestens 3 Wiederholungen pro Prompt sind Pflicht.

Wie sich Selbstrechnung mit Tools kombinieren lässt

Drei Kombinations-Patterns aus unseren Kundenprojekten.

Pattern 1: Selbstrechnung vor Tool-Kauf. Wer in den ersten 60 bis 90 Tagen selbst rechnet, versteht die Methodik tief und kauft danach gezielter. Mehr zur Tool-Auswahl in unserer GEO-Tool-Übersicht.

Pattern 2: Selbstrechnung als Cross-Validation gegen Tool. Bei Brands mit Tool-Lizenz parallel selbst rechnen, mindestens vierteljährlich. Diese Cross-Validation deckt methodische Tool-Limitationen auf.

Pattern 3: Selbstrechnung bei Tool-Wechsel. Bei Tool-Migration für 4 bis 8 Wochen parallel selbst rechnen, um Daten-Kontinuität zu sichern. Diese Disziplin verhindert Trend-Daten-Verlust beim Wechsel.

Welche typischen Score-Werte realistisch sind

Aus 47 DACH-Kundenprojekten ergeben sich Orientierungs-Werte.

Solo-Marketer und kleine Brands. Score zwischen 5 und 25. Beim Aufbau ist die untere Hälfte realistisch, nach 12 Monaten Aufbau die obere.

Mid-Market-Brands. Score zwischen 25 und 80. Mit aktiver Cluster-Strategie und 12 bis 18 Monate Aufbau erreichen mid-market-Brands typisch 50 bis 80 Punkte.

Enterprise und etablierte Brands. Score zwischen 80 und 200. Wikipedia-Eintrag, starke G2-Präsenz und Tier-1-PR-Tradition heben den Score schnell in den dreistelligen Bereich.

Eine Authoritas-Studie an 312 Brands zeigt eine durchschnittliche Visibility-Score-Verteilung mit Median bei 47 Punkten und Top-Quartil ab 102 Punkten (Authoritas Brand Visibility Study, 2026). Wer ähnliche Methodik nutzt, kann eigene Werte direkt einordnen. Details finden Sie in unserem GEO-Agentur.

Welche Stakeholder-Fragen ein guter Score beantwortet

Drei Fragen, die in Geschäftsführer-Meetings konsistent auftauchen.

Frage 1: Wachsen wir in der KI-Suche oder nicht? Score-Trend über 6 bis 12 Monate liefert klare Antwort. Wachsende Werte signalisieren Erfolg, stagnierende Werte signalisieren Decay-Probleme oder fehlende Aktualisierung. Mehr zur Decay-Logik in unserem Artikel zu Citation Decay.

Frage 2: Wo investieren wir am besten? Komponenten-Aufschlüsselung zeigt, ob Frequenz, Qualität oder Tiefe der Engpass ist. Diese Information steuert Investitions-Entscheidungen direkt.

Frage 3: Wie stehen wir gegen Wettbewerber? Wettbewerber-Benchmark zeigt strategische Position. Brands mit deutlich niedrigerem Score als Wettbewerber haben strategische Lücken, die priorisiert geschlossen werden müssen.

FAQ: Häufig gestellte Fragen zum LLM Visibility Score

Wie lange dauert eine vollständige Score-Messung?

Pro Mess-Run 2 bis 4 Stunden manuell, mit Skript-Automation 15 bis 30 Minuten. Erst-Setup eines Skripts 8 bis 16 Stunden, danach reine Operator-Zeit.

Wie häufig sollte ich messen?

Mindestens monatlich, idealerweise zweiwöchentlich. Häufiger als wöchentlich produziert statistisches Rauschen ohne strategischen Mehrwert.

Funktioniert der Score auch für Solo-Marketer?

Ja, mit reduziertem Prompt-Set von 20 bis 30 Prompts. Die Aussagekraft ist niedriger, aber als Trend-Indikator weiterhin nutzbar.

Welche Plattformen sollte ich für den Score messen?

Pflicht: ChatGPT, Perplexity, Gemini, Google AI Overviews. Optional: Claude, Bing Copilot, Meta AI, You.com. Mehr zur Plattform-Logik in unserem Artikel zur AI-Referral-Traffic-Tracking-Logik.

Brauche ich für den Score teure Tools?

Nein. Selbstrechnung ist mit Google Sheets oder Notion gut machbar. Tools wie Profound oder Peec liefern bequemere Aggregation, sind aber für die Score-Berechnung nicht zwingend.

Wie unterscheidet sich der Score von Tool-Werten?

Tools haben eigene Methodiken, oft mit zusätzlichen Komponenten wie Klick-Wahrscheinlichkeit oder Authority-Bewertung. Selbstrechnung ist transparenter, Tools sind bequemer. Beide sollten kombiniert werden.

Welche typischen Fehler kosten am häufigsten Aussagekraft?

Zu kleines Prompt-Set, fehlende Wiederholung pro Prompt, Single-Number-Aggregation, fehlender Wettbewerber-Benchmark. Alle vier lassen sich mit Disziplin vermeiden.

Teile den Blog Post

Newsletter abonnieren

Neueste Artikel

GEO

GEO-Benchmark 2026: Wie sichtbar sind deutsche Marken in KI-Antworten?

11.06.2026

GEO

Schema-Markup mit Claude Code automatisch generieren und validieren

09.06.2026