WZ-IT Logo
Interaktives Tool

Token-Geschwindigkeit Simulator

Simulieren Sie die Token-Generierungsgeschwindigkeit von Large Language Models und verstehen Sie, wie verschiedene Geschwindigkeiten die Benutzererfahrung beeinflussen.

100
10 tok/s500 tok/s
500
503000
Geschätzte Zeit:5.00s
Fortschritt0 / 500 tokens (0.0%)
Output:
Klicken Sie auf "Simulation starten" um zu beginnen...
Vergangene Zeit

0.00s

Aktuelle Geschwindigkeit

0 tok/s

Unsere Hardware

Diese Geschwindigkeiten mit dem AI Cube erreichen

Lokale KI-Inferenz ohne Cloud-Abhängigkeit. Volle Datenkontrolle.

AI Cube Basic

NVIDIA RTX PRO 4000 Blackwell

Performance mit GPT-OSS 20B
50 token/s
VRAM24 GB GDDR7
TFLOPS46.9 TFLOPS
Max. Modellgröße~20B Parameter
FormfaktorMini-ITX
Ab
4.299,90 €
Mehr erfahren
BELIEBT

AI Cube Pro

NVIDIA RTX PRO 6000 Blackwell

GPT-OSS 20B
200 tok/s
GPT-OSS 120B
150 tok/s
VRAM96 GB GDDR7
TFLOPS125 TFLOPS
Max. Modellgröße~120B+ Parameter
ROI vs. Cloud< 4 Monate
Ab
13.599,90 €
Mehr erfahren

Performance-Vergleich

ModellAI Cube BasicAI Cube Pro
GPT-OSS 20B
~20 Milliarden Parameter
50 tok/s200 tok/s
GPT-OSS 120B
~120 Milliarden Parameter
Nicht genug VRAM
150 tok/s

* Alle Werte wurden mit Batch Size 1 gemessen. Performance kann je nach Konfiguration variieren.

Typische Anwendungsfälle

Chatbot

Tokens:50-200
Empf. Speed:50-100 tok/s
Dauer:0.5-2s

Schnelle Antworten für flüssige Konversation

E-Mail

Tokens:200-500
Empf. Speed:30-50 tok/s
Dauer:4-10s

Ausreichend für E-Mail-Generierung

Bericht/Artikel

Tokens:1000-3000
Empf. Speed:50-100 tok/s
Dauer:10-60s

Längere Texte mit guter Performance

Häufige Fragen zur Token-Geschwindigkeit

Alles was Sie über Token-Generierung wissen müssen

Themen

Grundlagen

Die Token-Generierungsgeschwindigkeit (gemessen in Tokens pro Sekunde oder tok/s) gibt an, wie schnell ein KI-Modell Text erzeugen kann. Ein Token entspricht dabei ungefähr 4 Zeichen oder 0,75 Wörtern. Bei 100 tok/s werden also etwa 75 Wörter pro Sekunde generiert.

Die Simulation hilft Entwicklern und Unternehmen zu verstehen, wie sich verschiedene Geschwindigkeiten auf die Benutzererfahrung auswirken. Eine langsame Generierung (unter 30 tok/s) fühlt sich träge an, während schnelle Generierung (über 100 tok/s) ein flüssiges Erlebnis bietet.

Ein Token ist die kleinste Einheit, die ein LLM verarbeitet. Es kann ein Wort, ein Wortteil oder ein Satzzeichen sein. 'Hallo' ist ein Token, 'Weltmeisterschaft' könnte in 'Welt' + 'meister' + 'schaft' aufgeteilt werden. Die meisten LLMs verwenden etwa 1 Token pro 4 Zeichen.

Einflussfaktoren

Die wichtigsten Faktoren sind: 1) GPU-Leistung und VRAM, 2) Modellgröße (7B, 70B, 120B Parameter), 3) Quantisierung (FP16, INT8, INT4), 4) Batch-Size, 5) Kontext-Länge, 6) Inference-Backend (vLLM, Ollama, TensorRT).

Größere Modelle sind langsamer. Ein 7B-Modell kann 200+ tok/s erreichen, ein 70B-Modell etwa 50-100 tok/s, und ein 120B-Modell typischerweise 30-60 tok/s auf Consumer-Hardware. Die Qualität der Antworten steigt jedoch mit der Modellgröße.

Nein, die Geschwindigkeit variiert. Am Anfang (Prefill-Phase) ist die Generierung oft langsamer, danach stabilisiert sie sich. Auch die Komplexität der Anfrage, Kontext-Länge und System-Auslastung beeinflussen die Geschwindigkeit.

Praktische Anwendung

Unter 20 tok/s: Spürbar langsam, frustrierend. 20-50 tok/s: Akzeptabel für die meisten Anwendungen. 50-100 tok/s: Gute Erfahrung, fühlt sich flüssig an. Über 100 tok/s: Exzellent, Text erscheint fast sofort.

Chatbots: 50-100 tok/s für flüssige Konversation. Dokument-Generierung: 30-50 tok/s ausreichend. Echtzeit-Übersetzung: 100+ tok/s empfohlen. Code-Completion: 100+ tok/s für beste Entwicklererfahrung.

1) Bessere GPU mit mehr VRAM verwenden, 2) Quantisierung (INT4/INT8) für kleinere Modelle, 3) Optimierte Inference-Engines wie vLLM nutzen, 4) Batch-Processing für mehrere Anfragen, 5) KV-Cache optimieren, 6) Kontinuierliches Batching aktivieren.

Hardware & AI Cube

AI Cube Basic (RTX 4060 Ti 16GB): ~50 tok/s mit 20B-Modellen. AI Cube Pro (RTX 5090 48GB): ~200 tok/s mit 20B-Modellen, ~150 tok/s mit 120B-Modellen. Diese Werte können je nach Konfiguration und Optimierung variieren.

Cloud-APIs haben Netzwerk-Latenz, Rate-Limits und teilen Ressourcen mit anderen Nutzern. Lokale Hardware wie der AI Cube bietet dedizierte Ressourcen, keine Netzwerk-Verzögerung und konstante Performance ohne Warteschlangen.

Cloud-APIs berechnen pro Token (z.B. $0.002/1K Tokens). Bei hoher Nutzung summiert sich das schnell. Lokale Hardware hat einmalige Anschaffungskosten, aber keine laufenden Token-Kosten. Ab ca. 500.000 Tokens/Monat lohnt sich lokale Hardware oft mehr.

Bereit für schnelle KI-Inferenz?

Der AI Cube bietet lokale KI-Inferenz mit bis zu 200 tok/s – ohne Cloud-Abhängigkeit.

AI Cube entdecken

Lassen Sie uns über Ihre Idee sprechen

Ob konkrete IT-Herausforderung oder einfach eine Idee – wir freuen uns auf den Austausch. In einem kurzen Gespräch prüfen wir gemeinsam, ob und wie Ihr Projekt zu WZ-IT passt.

E-Mail
[email protected]

Vertraut von führenden Unternehmen

  • Rekorder
  • Keymate
  • Führerscheinmacher
  • SolidProof
  • ARGE
  • Boese VA
  • NextGym
  • Maho Management
  • Golem.de
  • Millenium
  • Paritel
  • Yonju
  • EVADXB
  • Mr. Clipart
  • Aphy
  • Negosh
  • ABCO Water
Timo Wevelsiep & Robin Zins - CEOs of WZ-IT

Timo Wevelsiep & Robin Zins

Geschäftsführer

1/3 – Themenauswahl33%

Worum geht es bei Ihrer Anfrage?

Wählen Sie einen oder mehrere Bereiche, bei denen wir Sie unterstützen dürfen.