WZ-IT Logo
Interaktives Tool

Token-Geschwindigkeit Simulator

Simulieren Sie die Token-Generierungsgeschwindigkeit von Large Language Models und verstehen Sie, wie verschiedene Geschwindigkeiten die Benutzererfahrung beeinflussen.

45
10 tok/s500 tok/s
500
503000
Geschätzte Zeit:11.11s
Fortschritt0 / 500 tokens (0.0%)
Output:
Klicken Sie auf "Simulation starten" um zu beginnen...
Vergangene Zeit

0.00s

Aktuelle Geschwindigkeit

0 tok/s

Unsere Hardware

Diese Geschwindigkeiten mit dem AI Cube erreichen

Lokale KI-Inferenz ohne Cloud-Abhängigkeit. Volle Datenkontrolle.

WZ-IT AI Cube

ASUS/NVIDIA GB10 Appliance

GPT-OSS 20B
85 tok/s
GPT-OSS 120B
45 tok/s
Memory128 GB Unified Memory
AI Performancebis 1 PFLOP FP4
Max. ModellgrößeGPT-OSS 20B / 120B
ROI vs. Cloudabhängig vom Nutzungsprofil
Ab
5.990,90 €
exkl. USt.
Mehr erfahren

Performance-Vergleich

ModellWZ-IT AI Cube
GPT-OSS 20B
~20 Milliarden Parameter
80-90 tok/s
GPT-OSS 120B
~120 Milliarden Parameter
35-60 tok/s

* Konservative Richtwerte auf Basis öffentlich verfügbarer GB10/DGX-Spark-Benchmarks. Performance hängt von Modell, Kontextlänge, Backend und Parallelität ab.

Typische Anwendungsfälle

Chatbot

Tokens:50-200
Empf. Speed:50-100 tok/s
Dauer:0.5-2s

Schnelle Antworten für flüssige Konversation

E-Mail

Tokens:200-500
Empf. Speed:30-50 tok/s
Dauer:4-10s

Ausreichend für E-Mail-Generierung

Bericht/Artikel

Tokens:1000-3000
Empf. Speed:50-100 tok/s
Dauer:10-60s

Längere Texte mit guter Performance

Häufige Fragen zur Token-Geschwindigkeit

Alles was Sie über Token-Generierung wissen müssen

Themen

Grundlagen

Die Token-Generierungsgeschwindigkeit (gemessen in Tokens pro Sekunde oder tok/s) gibt an, wie schnell ein KI-Modell Text erzeugen kann. Ein Token entspricht dabei ungefähr 4 Zeichen oder 0,75 Wörtern. Bei 100 tok/s werden also etwa 75 Wörter pro Sekunde generiert.

Die Simulation hilft Entwicklern und Unternehmen zu verstehen, wie sich verschiedene Geschwindigkeiten auf die Benutzererfahrung auswirken. Eine langsame Generierung (unter 30 tok/s) fühlt sich träge an, während schnelle Generierung (über 100 tok/s) ein flüssiges Erlebnis bietet.

Ein Token ist die kleinste Einheit, die ein LLM verarbeitet. Es kann ein Wort, ein Wortteil oder ein Satzzeichen sein. 'Hallo' ist ein Token, 'Weltmeisterschaft' könnte in 'Welt' + 'meister' + 'schaft' aufgeteilt werden. Die meisten LLMs verwenden etwa 1 Token pro 4 Zeichen.

Einflussfaktoren

Die wichtigsten Faktoren sind: 1) GPU-Leistung und VRAM, 2) Modellgröße (7B, 70B, 120B Parameter), 3) Quantisierung (FP16, INT8, INT4), 4) Batch-Size, 5) Kontext-Länge, 6) Inference-Backend (vLLM, Ollama, TensorRT).

Größere Modelle sind langsamer. Ein 7B-Modell kann 200+ tok/s erreichen, ein 70B-Modell etwa 50-100 tok/s, und ein 120B-Modell typischerweise 30-60 tok/s auf Consumer-Hardware. Die Qualität der Antworten steigt jedoch mit der Modellgröße.

Nein, die Geschwindigkeit variiert. Am Anfang (Prefill-Phase) ist die Generierung oft langsamer, danach stabilisiert sie sich. Auch die Komplexität der Anfrage, Kontext-Länge und System-Auslastung beeinflussen die Geschwindigkeit.

Praktische Anwendung

Unter 20 tok/s: Spürbar langsam, frustrierend. 20-50 tok/s: Akzeptabel für die meisten Anwendungen. 50-100 tok/s: Gute Erfahrung, fühlt sich flüssig an. Über 100 tok/s: Exzellent, Text erscheint fast sofort.

Chatbots: 50-100 tok/s für flüssige Konversation. Dokument-Generierung: 30-50 tok/s ausreichend. Echtzeit-Übersetzung: 100+ tok/s empfohlen. Code-Completion: 100+ tok/s für beste Entwicklererfahrung.

1) Bessere GPU mit mehr VRAM verwenden, 2) Quantisierung (INT4/INT8) für kleinere Modelle, 3) Optimierte Inference-Engines wie vLLM nutzen, 4) Batch-Processing für mehrere Anfragen, 5) KV-Cache optimieren, 6) Kontinuierliches Batching aktivieren.

Hardware & AI Cube

WZ-IT AI Cube auf GB10-Basis: konservativ etwa 80-90 tok/s mit GPT-OSS 20B und etwa 35-60 tok/s mit GPT-OSS 120B. Die Werte hängen von Kontextlänge, Quantisierung, Backend und Parallelität ab.

Cloud-APIs haben Netzwerk-Latenz, Rate-Limits und teilen Ressourcen mit anderen Nutzern. Lokale Hardware wie der AI Cube bietet dedizierte Ressourcen, keine Netzwerk-Verzögerung und konstante Performance ohne Warteschlangen.

Cloud-APIs berechnen pro Token (z.B. $0.002/1K Tokens). Bei hoher Nutzung summiert sich das schnell. Lokale Hardware hat einmalige Anschaffungskosten, aber keine laufenden Token-Kosten. Ab ca. 500.000 Tokens/Monat lohnt sich lokale Hardware oft mehr.

Bereit für schnelle KI-Inferenz?

Der AI Cube bietet lokale KI-Inferenz auf eigener Hardware - ohne Cloud-Abhängigkeit und ohne externe Token-Kosten.

AI Cube entdecken

Lassen Sie uns über Ihre Idee sprechen

Ob konkrete IT-Herausforderung oder einfach eine Idee - wir freuen uns auf den Austausch. In einem kurzen Gespräch prüfen wir gemeinsam, ob und wie Ihr Projekt zu WZ-IT passt.

E-Mail
[email protected]

Führende Unternehmen vertrauen WZ-IT

  • Rekorder
  • Keymate
  • Führerscheinmacher
  • SolidProof
  • ARGE
  • Boese VA
  • NextGym
  • Maho Management
  • Golem.de
  • Millenium
  • Paritel
  • Yonju
  • EVADXB
  • Mr. Clipart
  • Aphy
  • Negosh
  • ABCO Water
Timo Wevelsiep & Robin Zins - CEOs of WZ-IT

Timo Wevelsiep & Robin Zins

Geschäftsführer

1/3 – Themenauswahl33%

Worum geht es bei Ihrer Anfrage?

Wählen Sie einen oder mehrere Bereiche, bei denen wir Sie unterstützen dürfen.