Zurück zum Blog

Was ist Tokenization bei LLMs? Definition & Funktionsweise

Glossar

Eine Marketing-Managerin kopiert einen Quartalsbericht in ein Prompt-Fenster und bekommt die Meldung, dass das Context-Window überschritten ist. Gleichzeitig zeigt die Rechnung im OpenAI-Dashboard für denselben Text einen anderen Betrag als im Vormonat. Beides hat denselben Grund, und er hat nichts mit Wörtern zu tun. Genau hier setzt die Frage was ist Tokenization an, und sie entscheidet, wie viel Text in ein Modell passt und wie teuer jede Anfrage wird.

Für SEO- und Content-Teams ist Tokenization die unsichtbare Schicht zwischen Ihrer Sprache und dem, was ChatGPT, Claude oder Gemini verarbeiten. Dieser Glossareintrag klärt Definition, Verfahren, deutsche Besonderheiten und GEO-Folgen.

Was bedeutet Tokenization genau?

Tokenization ist die Zerlegung von Text in kleinere Einheiten, sogenannte Tokens, die ein Sprachmodell als numerische IDs verarbeiten kann. Ein Token ist dabei selten ein ganzes Wort, sondern meist ein Wortteil, eine Silbe, ein Satzzeichen oder eine häufige Zeichengruppe (Sistrix, 2026). Details finden Sie in unserem was ist LLM Traffic.

Die deutsche Übersetzung lautet „Tokenisierung". In der Praxis hat sich der englische Begriff durchgesetzt, auch bei deutschen Fachautoren wie Kai Spriestersbach und Olaf Kopp.

Der Kerngedanke ist Effizienz durch Wiederverwendung. Statt jedes Wort einzeln zu lernen, lernt das Modell Bausteine. „Suchmaschinenoptimierung" wird in mehrere Tokens zerlegt, die auch in „Suchmaschine" oder „Optimierungsvorschlag" vorkommen. So kommt ein Modell mit etwa 100.000 Tokens im Vokabular aus und bildet trotzdem beliebig viele Wörter ab (OpenAI, 2024).

Das Modell sieht keine Buchstaben, sondern Zahlen. Jeder Token erhält eine numerische ID. Der Satz „Hallo Welt" wird bei GPT-4o zu [13225, 37776]. Nur diese Zahlen-Sequenz gelangt ins neuronale Netz.

Wie funktioniert Tokenization technisch?

Ein Tokenizer ist ein eigenständiges Modell, das vor dem Sprachmodell trainiert wird und festlegt, welche Zeichenfolgen ein gemeinsames Token bilden. Jedes LLM hat seinen eigenen Tokenizer, fest eingebaut. Mehr dazu in unserem was ist ChatGPT Search.

Die drei Schritte bei jeder Anfrage

Erster Schritt, Segmentierung. Der Eingabetext wird nach den Regeln des Tokenizers zerlegt. „Tokenisierung" wird bei GPT-4o zu drei Tokens, „Token", „isier", „ung". Das englische „tokenization" ergibt nur zwei Tokens, weil englische Wortstämme häufiger im Trainingsdatensatz vorkamen.

Zweiter Schritt, ID-Zuweisung. Jeder Token erhält eine numerische ID aus dem Vokabular. GPT-4o nutzt cl100k_base mit rund 100.000 Einträgen (OpenAI, 2024). Die Mapping-Tabelle ist deterministisch, derselbe Token bekommt immer dieselbe ID.

Dritter Schritt, Rückübersetzung. Nachdem das Modell die Antwort als Token-ID-Sequenz erzeugt hat, wandelt der Tokenizer diese Zahlen zurück in Text. Dieser Schritt heißt Detokenization.

Warum Tokens keine Wörter sind

Ein englisches Wort entspricht im Schnitt 1,3 Tokens, ein deutsches Wort etwa 2 Tokens. Der Unterschied kommt durch Compound-Wörter und Umlaute, die im Trainingsdatensatz seltener vorkommen (OpenAI Tokenizer, 2024). Ein deutscher Artikel mit 1.500 Wörtern ergibt dadurch oft 2.500 bis 3.000 Tokens.

Welche Tokenization-Verfahren gibt es?

Moderne LLMs nutzen vier Hauptverfahren, die alle auf Subword-Ebene arbeiten. Welches Verfahren ein Modell verwendet, hat direkte Folgen für Token-Kosten und Sprachqualität:

Verfahren

Einsatz

Besonderheit

Byte-Pair Encoding (BPE)

OpenAI GPT-Familie

Fügt häufigste Zeichen-Paare iterativ zusammen

WordPiece

Google BERT

Wahrscheinlichkeits-basiert, nutzt „##" für Fortsetzungen

SentencePiece

Google T5 und Gemini

Robust für Sprachen ohne Leerzeichen wie Japanisch

Unigram Language Model

Oft mit SentencePiece kombiniert

Probabilistisch, wählt wahrscheinlichste Zerlegung

Warum ist Tokenization für Nutzer und Kosten entscheidend?

Jede Interaktion mit einem LLM wird in Tokens abgerechnet und durch das Context-Window in Tokens begrenzt. Ohne Verständnis der Tokenization lässt sich weder Budget noch Prompt-Länge planen.

Das Context-Window ist immer in Tokens angegeben:

  • GPT-4o: 128.000 Tokens (OpenAI, 2024).

  • Claude 3.5 Sonnet: 200.000 Tokens (Anthropic, 2024).

  • Gemini 1.5 Pro: bis zu 2.000.000 Tokens (Google, 2024).

Ein 200-seitiger PDF-Bericht liegt je nach Sprache bei 100.000 bis 150.000 Tokens.

Die Preise rechnen pro 1.000 oder 1.000.000 Tokens. OpenAI, Anthropic und Google staffeln Preise zwischen Input- und Output-Tokens und zwischen Modellgrößen. Wer einen Content-Prozess mit deutschen Eingabetexten skaliert, zahlt rund 30 Prozent mehr als ein englischer Wettbewerber mit identischem Workflow.

Lange Prompts werden schnell teuer. Ein Prompt mit 3.000 Tokens Kontext plus 1.000 Tokens Antwort erzeugt 4.000 Tokens pro Anfrage. Bei 10.000 Anfragen pro Monat summieren sich 40 Millionen Tokens.

Warum ist Tokenization für GEO relevant?

Jede KI-Suche embedded und tokenisiert Ihre Inhalte, und jede Zitation hängt davon ab, wie saubere Chunks daraus entstehen. ChatGPT, Perplexity, Gemini und Google AI Overviews zerlegen Webseiten in Tokens, bevor sie Passagen mit der User-Query vergleichen (Sistrix, 2026).

Chunk-Grenzen orientieren sich an Token-Zahlen. Retriever in RAG-Systemen schneiden Texte in Blöcke von 200 bis 800 Tokens. Ein Absatz mit 120 deutschen Wörtern liegt bei rund 240 Tokens und passt als sauberer Chunk. Lange, verschachtelte Absätze werden mitten im Satz geschnitten und verlieren Kontext.

Token-effiziente Sprache senkt Kosten und schärft Embeddings. Wer präzise Fachbegriffe nutzt, reduziert die Token-Zahl pro Aussage und erhöht die Signal-Dichte im Embedding-Raum. Unser Glossareintrag zu Vektor-Embeddings zeigt, wie dieser Schritt nach der Tokenisierung funktioniert.

Prompt-Engineering basiert auf Token-Bewusstsein. Wer weiß, dass Beispiele, System-Prompts und Chat-Historie Tokens kosten, baut Prompts kürzer und strukturierter. Mehr dazu in unserem Glossareintrag zu Prompt Engineering und im Guide zum Context Window.

Deutsche Inhalte brauchen bewusstere Strukturierung. Weil Deutsch tokenineffizienter ist als Englisch, werden lange Einleitungen und Wiederholungen im Retriever schneller zum Problem. Wir messen in Audits regelmäßig, dass Seiten mit kompakten Absätzen doppelt so häufig zitiert werden, siehe dazu unsere GEO-Audit-Checkliste.

Wie messen und optimieren wir Token-Verbrauch?

Token-Optimierung bedeutet, jeden Prompt und jede Content-Struktur auf unnötige Tokens zu prüfen. Vier Werkzeuge und Prinzipien führen in der Praxis zu messbaren Einsparungen:

  1. Tokenizer-Tools: OpenAI Tokenizer und tiktoken für GPT, Token Counter für Claude, AI Studio für Gemini.

  2. Prompt-Komprimierung: Überarbeitete System-Prompts sparen 20 bis 40 Prozent der Tokens bei gleicher Qualität.

  3. Prompt-Caching: Anthropic bietet 5-Minuten-Cache mit bis zu 90 Prozent Rabatt auf Input-Tokens (Anthropic, 2024).

  4. Content-Struktur für Retriever: Ein Gedanke pro Absatz, kurze Sätze, klare H3-Struktur senken Token-Zahl und schärfen Embeddings.

Gängige Irrtümer über Tokenization

Irrtum 1: Ein Token ist immer ein Wort. Falsch. Ein Token ist meist ein Subword, also ein Wortteil, eine Silbe oder ein häufiger Buchstaben-Cluster. Bei seltenen Fachbegriffen oder Eigennamen kann ein einzelnes Wort auch 5 oder mehr Tokens erzeugen (OpenAI Tokenizer, 2024).

Irrtum 2: Alle LLMs verwenden denselben Tokenizer. Falsch. GPT, Claude, Gemini und Open-Source-Modelle nutzen eigene Tokenizer mit unterschiedlichen Vokabularen. Derselbe Text ergibt bei OpenAI, Anthropic und Google unterschiedliche Token-Zahlen mit Abweichungen von 10 bis 20 Prozent. Wer Kosten vergleicht, muss für jedes Modell separat messen.

Irrtum 3: Deutsche Texte sind grundsätzlich benachteiligt. Teilweise richtig. Deutsch ist weniger tokenineffizient als früher. Moderne Tokenizer wie cl100k_base haben das Verhältnis gegenüber älteren Modellen verbessert. Der Mehraufwand liegt heute bei rund 30 Prozent, nicht mehr bei 100 Prozent wie bei frühen GPT-Versionen.

Irrtum 4: Tokenization betrifft nur Entwicklerteams. Falsch. Tokenization entscheidet über Prompt-Kosten, Context-Window-Limits und die Chunk-Qualität in RAG-Pipelines. Für Marketing und Content ist ein Grundverständnis dadurch Pflicht, nicht reines Engineering-Thema. Den Einstieg liefert unser Glossareintrag zu LLMO.

FAQ: Häufig gestellte Fragen

Was ist Tokenization in einem Satz?

Tokenization ist die Zerlegung von Text in kleinere Einheiten, die ein Sprachmodell als numerische IDs verarbeiten und im Embedding-Raum weiterrechnen kann.

Wie viele Tokens hat ein deutsches Wort im Durchschnitt?

Ein deutsches Wort entspricht bei modernen Tokenizern wie cl100k_base im Schnitt rund 2 Tokens. Ein englisches Wort entspricht im Schnitt 1,3 Tokens. Der Unterschied entsteht durch Compound-Wörter, Umlaute und seltenere Wortstämme im Trainingsdatensatz (OpenAI Tokenizer, 2024).

Wie kann ich die Token-Zahl eines Textes messen?

Für OpenAI-Modelle nutzen Sie den OpenAI Tokenizer unter platform.openai.com/tokenizer oder tiktoken. Für Claude bietet Anthropic einen Token Counter, für Gemini gibt es ein Tool im Google AI Studio. Jeder Tokenizer liefert leicht andere Ergebnisse, weil die Vokabulare unterschiedlich sind.

Was ist der Unterschied zwischen Tokens und Wörtern für die Abrechnung?

Abgerechnet wird in Tokens, nicht in Wörtern. Ein Prompt mit 1.000 deutschen Wörtern erzeugt rund 2.000 Tokens und kostet damit mehr als derselbe Inhalt auf Englisch mit 1.300 Tokens. Budgets sollten direkt aus einem Tokenizer kommen, nicht aus Wortzahlen.

Beeinflusst Tokenization die Qualität von KI-Antworten?

Ja, indirekt. Ein ineffizienter Tokenizer reduziert die effektive Context-Länge und zerlegt seltene Fachbegriffe in so viele Teile, dass das Modell sie schlechter versteht. Für deutsche Inhalte lohnt sich der Test mit mehreren Modellen.

---

Die Frage was ist Tokenization lässt sich in einem Satz beantworten, die unsichtbare Schicht zwischen Ihrer Sprache und dem, was ein LLM verarbeitet, und damit die Grundlage für Kosten, Context-Limits und Chunk-Qualität jeder KI-Suche. Für Marken heißt das, Content so zu strukturieren, dass deutsche Texte trotz höherer Token-Dichte sauber zerschnitten und in KI-Antworten zitiert werden. Wir bei rankprompt.de prüfen in Audits jede Domain auf Chunk-Länge, Token-Effizienz und Embedding-Distanz zu relevanten Prompts und liefern drei konkrete Sofort-Hebel pro Cluster. Der schnellste Einstieg führt über unsere GEO-Audit-Checkliste.

Teile den Blog Post

Teile den Blog Post

Newsletter abonnieren

Newsletter abonnieren

Neueste Artikel