Simulieren Sie die Token-Generierungsgeschwindigkeit von Large Language Models und verstehen Sie, wie verschiedene Geschwindigkeiten die Benutzererfahrung beeinflussen.
0.00s
0 tok/s
Lokale KI-Inferenz ohne Cloud-Abhängigkeit. Volle Datenkontrolle.
NVIDIA RTX PRO 4000 Blackwell
NVIDIA RTX PRO 6000 Blackwell
| Modell | AI Cube Basic | AI Cube Pro |
|---|---|---|
GPT-OSS 20B ~20 Milliarden Parameter | 50 tok/s | 200 tok/s |
GPT-OSS 120B ~120 Milliarden Parameter | — Nicht genug VRAM | 150 tok/s |
* Alle Werte wurden mit Batch Size 1 gemessen. Performance kann je nach Konfiguration variieren.
Schnelle Antworten für flüssige Konversation
Ausreichend für E-Mail-Generierung
Längere Texte mit guter Performance
Alles was Sie über Token-Generierung wissen müssen
Themen
Die Token-Generierungsgeschwindigkeit (gemessen in Tokens pro Sekunde oder tok/s) gibt an, wie schnell ein KI-Modell Text erzeugen kann. Ein Token entspricht dabei ungefähr 4 Zeichen oder 0,75 Wörtern. Bei 100 tok/s werden also etwa 75 Wörter pro Sekunde generiert.
Die Simulation hilft Entwicklern und Unternehmen zu verstehen, wie sich verschiedene Geschwindigkeiten auf die Benutzererfahrung auswirken. Eine langsame Generierung (unter 30 tok/s) fühlt sich träge an, während schnelle Generierung (über 100 tok/s) ein flüssiges Erlebnis bietet.
Ein Token ist die kleinste Einheit, die ein LLM verarbeitet. Es kann ein Wort, ein Wortteil oder ein Satzzeichen sein. 'Hallo' ist ein Token, 'Weltmeisterschaft' könnte in 'Welt' + 'meister' + 'schaft' aufgeteilt werden. Die meisten LLMs verwenden etwa 1 Token pro 4 Zeichen.
Die wichtigsten Faktoren sind: 1) GPU-Leistung und VRAM, 2) Modellgröße (7B, 70B, 120B Parameter), 3) Quantisierung (FP16, INT8, INT4), 4) Batch-Size, 5) Kontext-Länge, 6) Inference-Backend (vLLM, Ollama, TensorRT).
Größere Modelle sind langsamer. Ein 7B-Modell kann 200+ tok/s erreichen, ein 70B-Modell etwa 50-100 tok/s, und ein 120B-Modell typischerweise 30-60 tok/s auf Consumer-Hardware. Die Qualit ät der Antworten steigt jedoch mit der Modellgröße.
Nein, die Geschwindigkeit variiert. Am Anfang (Prefill-Phase) ist die Generierung oft langsamer, danach stabilisiert sie sich. Auch die Komplexität der Anfrage, Kontext-Länge und System-Auslastung beeinflussen die Geschwindigkeit.
Unter 20 tok/s: Spürbar langsam, frustrierend. 20-50 tok/s: Akzeptabel für die meisten Anwendungen. 50-100 tok/s: Gute Erfahrung, fühlt sich flüssig an. Über 100 tok/s: Exzellent, Text erscheint fast sofort.
Chatbots: 50-100 tok/s für flüssige Konversation. Dokument-Generierung: 30-50 tok/s ausreichend. Echtzeit-Übersetzung: 100+ tok/s empfohlen. Code-Completion: 100+ tok/s für beste Entwicklererfahrung.
1) Bessere GPU mit mehr VRAM verwenden, 2) Quantisierung (INT4/INT8) für kleinere Modelle, 3) Optimierte Inference-Engines wie vLLM nutzen, 4) Batch-Processing für mehrere Anfragen, 5) KV-Cache optimieren, 6) Kontinuierliches Batching aktivieren.
AI Cube Basic (RTX 4060 Ti 16GB): ~50 tok/s mit 20B-Modellen. AI Cube Pro (RTX 5090 48GB): ~200 tok/s mit 20B-Modellen, ~150 tok/s mit 120B-Modellen. Diese Werte können je nach Konfiguration und Optimierung variieren.
Cloud-APIs haben Netzwerk-Latenz, Rate-Limits und teilen Ressourcen mit anderen Nutzern. Lokale Hardware wie der AI Cube bietet dedizierte Ressourcen, keine Netzwerk-Verzögerung und konstante Performance ohne Warteschlangen.
Cloud-APIs berechnen pro Token (z.B. $0.002/1K Tokens). Bei hoher Nutzung summiert sich das schnell. Lokale Hardware hat einmalige Anschaffungskosten, aber keine laufenden Token-Kosten. Ab ca. 500.000 Tokens/Monat lohnt sich lokale Hardware oft mehr.
Der AI Cube bietet lokale KI-Inferenz mit bis zu 200 tok/s – ohne Cloud-Abhängigkeit.
AI Cube entdeckenOb konkrete IT-Herausforderung oder einfach eine Idee – wir freuen uns auf den Austausch. In einem kurzen Gespräch prüfen wir gemeinsam, ob und wie Ihr Projekt zu WZ-IT passt.
Timo Wevelsiep & Robin Zins
Geschäftsführer

