Upgrade-Announcement: Unsere Cloud GPU Server laufen jetzt auf NVIDIA RTX 6000 Blackwell

Mehr GPU-Power für Ihre KI-Anwendungen? Unser AI Server Pro läuft ab sofort auf der NVIDIA RTX 6000 Blackwell Max-Q mit 96 GB VRAM. Jetzt Beratungsgespräch vereinbaren →
Ab sofort setzen wir in unserem AI Server Pro nicht mehr auf die RTX 6000 Ada, sondern auf die NVIDIA RTX 6000 Blackwell Max-Q. Damit bekommen Sie in der Cloud deutlich mehr Headroom für große Modelle, längere Kontexte und höhere Durchsatzanforderungen – ohne Ihr Setup (Ollama/vLLM/OpenWebUI) neu denken zu müssen.
Inhaltsverzeichnis
- Die Kernänderungen auf einen Blick
- Warum dieser Schritt
- Performance: Blackwell vs. Ada
- Was 96 GB VRAM konkret ermöglichen
- Was bleibt gleich
- Verfügbarkeit
Die Kernänderungen auf einen Blick
1) Deutlich mehr VRAM: 96 GB statt 48 GB
Unsere Pro-Instanzen kommen jetzt mit 96 GB GDDR7 VRAM (ECC) in der Blackwell-Generation – die RTX 6000 Ada lag bei 48 GB GDDR6 (ECC). Das ist die wichtigste Änderung für LLMs, weil VRAM in der Praxis über Modellgröße, Kontextlänge, Batch-Größe und Parallelität entscheidet.
2) Neue Architektur (Blackwell) und neue Core-Generationen
Die RTX PRO 6000 Blackwell Serie bringt Blackwell-Architektur, 5th-Gen Tensor Cores und 4th-Gen RT Cores. Die RTX 6000 Ada basiert auf Ada Lovelace mit 4th-Gen Tensor Cores und 3rd-Gen RT Cores. Für AI-Workloads ist vor allem der Sprung bei den Tensor Cores relevant.
3) Plattform-Modernisierung: PCIe Gen 5 vs. PCIe Gen 4
Die RTX PRO 6000 Blackwell Varianten sind auf PCIe Gen 5 x16 ausgelegt, die RTX 6000 Ada auf PCIe Gen 4 x16. Das kann je nach Workload (z. B. Daten-Streaming, Multi-Node Pipelines) zusätzliche Reserven bringen.
4) Max-Q: Dichte & Effizienz für skalierbare Setups
Wir setzen im AI Server Pro auf die Max-Q-Variante. NVIDIA positioniert diese explizit für dichte Konfigurationen und als Balance aus Performance und Energieeffizienz – ideal, wenn man Performance pro Rack/Server optimieren will.
Warum dieser Schritt: größere Modelle, längere Kontexte, mehr gleichzeitige Nutzer
In der Praxis sehen wir bei produktiven LLM-Anwendungen drei typische Engpässe:
- VRAM-Limit – Modell passt nicht vollständig in die GPU
- Time-to-First-Token – Prompt Processing / Prefill ist zu langsam
- Durchsatz – Token-Generierung unter Last zu niedrig
Mit Blackwell adressieren wir genau diese Punkte: mehr VRAM für große Modelle/Long Context und spürbar mehr Performance sowohl im Prompt Processing als auch bei der Token-Generierung.
Performance: Blackwell vs. Ada (LLM-Inference Benchmarks)
Für eine externe, nachvollziehbare Einordnung nutzen wir die Messwerte von Hardware Corner. Dort wird mit llama.cpp / llama-bench auf Ubuntu 24.04 und CUDA 12.8 getestet; die Token-Generation ist in Tokens/Sekunde, bei 4-bit Quantisierung (Q4_K_XL).
Token-Generierung bei 16K Kontext
| Modell (16K Kontext, 4-bit) | RTX 6000 Ada (t/s) | RTX 6000 Blackwell (t/s) | Vorteil Blackwell |
|---|---|---|---|
| Qwen3 8B | 98,68 | 140,62 | +42,5% |
| Qwen3 14B | 58,51 | 96,86 | +65,5% |
| Qwen3 30B | 120,12 | 139,76 | +16,4% |
| Qwen3 32B | 25,08 | 45,72 | +82,3% |
| gpt-oss 20B | 137,10 | 237,92 | +73,5% |
| Llama 70B | 13,65 | 28,24 | +106,9% |
Quelle: Hardware Corner Token-Generation Tabelle (16K Kontext)
Wichtig für die Praxis: Je größer Modell und Kontext, desto eher zahlt sich Blackwell aus. Bei 65K Kontext sieht man in mehreren Fällen nahezu eine Verdopplung (oder mehr) der Token-Generierung – z. B. Qwen3 14B +123%, Qwen3 32B +173%.
Prompt Processing (Time-to-First-Token)
Das Prefill/Prompt-Processing ist oft der unterschätzte Faktor. Bei 16K Kontext:
| Modell | RTX 6000 Ada (tok/s) | RTX 6000 Blackwell (tok/s) | Vorteil |
|---|---|---|---|
| Qwen3 8B | 4.096 | 7.588 | +85% |
| Llama 3.3 70B | 526 | 1.355 | +158% |
Das ist besonders relevant bei RAG (lange Prompts), Tool-Use oder Multi-Turn Chats – weil es direkt die gefühlte Responsiveness beeinflusst.
Was Ihnen 96 GB VRAM konkret ermöglichen
Der größte Sprung ist nicht „nur" schneller – sondern mehr machbar auf einer einzelnen GPU:
- 100B+-Klasse ohne Offloading / ohne Multi-GPU als Zwang: Die 96-GB-Klasse ist die praktikable Single-GPU-Option, wenn Modelle im 100B+ Parameterbereich ohne System-RAM-Offloading laufen sollen.
- Mit Blackwell laufen auch große Modelle wie GPT-OSS 120B (~150 t/s) oder Mistral Large 123B direkt auf einer GPU.
Vergleich: Was passt auf welche GPU?
| Modell | RTX 6000 Ada (48 GB) | RTX 6000 Blackwell (96 GB) |
|---|---|---|
| Llama 3.1 8B (Q4) | ✅ | ✅ |
| Llama 3.1 70B (Q4) | ⚠️ knapp | ✅ |
| Qwen3 32B (Q4) | ✅ | ✅ |
| GPT-OSS 120B (MXFP4) | ❌ | ✅ |
| Mistral Large 123B (Q4) | ❌ | ✅ |
Was bleibt gleich: Ihr Stack, Ihre Kontrolle, Ihr Standort
Der GPU-Wechsel ändert nichts am Grundprinzip unserer AI-Server:
- DSGVO-konformes Hosting in Deutschland und ISO 27001 Rechenzentrumsbetrieb
- Dedizierte GPU-Ressourcen ohne Sharing – optimiert für niedrige Latenz und hohen Durchsatz
- Auf Wunsch weiterhin Ollama & vLLM Setup, OpenWebUI Installation, GPU-Optimierung
- Beim AI Server Pro zusätzlich Modell-Training (Feinabstimmung) möglich
Hinweis zur Übertragbarkeit der Benchmarks
Die oben zitierten Werte stammen aus einem klar definierten Test-Setup (llama.cpp/llama-bench, CUDA 12.8, 4-bit Quantisierung). In produktiven Umgebungen (z. B. vLLM, andere Quantisierungen, Batch-Settings, KV-Cache-Strategien) können absolute Zahlen abweichen – die Richtung (mehr VRAM + deutlicher Performance-Sprung) ist jedoch konsistent.
Verfügbarkeit & nächster Schritt
Der AI Server Pro mit NVIDIA RTX 6000 Blackwell Max-Q (96 GB GDDR7) ist ab sofort verfügbar (auf Anfrage, begrenzte Verfügbarkeit).
Wenn Sie bereits ein konkretes Ziel haben (z. B. „70B-Chat mit 32K Kontext und X parallelen Nutzern" oder „RAG mit großem Dokumentenkorpus"), können wir daraus sehr schnell eine passende Konfiguration und Inferenz-Engine-Empfehlung (Ollama vs. vLLM) ableiten.
Jetzt Beratungsgespräch vereinbaren →
Weiterführende Guides
Häufig gestellte Fragen
Antworten auf wichtige Fragen zu diesem Thema
Wir wechseln von der RTX 6000 Ada (48 GB VRAM) auf die RTX 6000 Blackwell Max-Q (96 GB VRAM). Doppelt so viel VRAM, neue Architektur, mehr Performance.
Je nach Modell und Kontext 40-170% schneller. Bei großen Modellen wie Llama 70B verdoppelt sich die Token-Generierung.
Mit 96 GB VRAM laufen auch 100B+ Modelle wie GPT-OSS 120B oder Mistral Large 123B auf einer einzelnen GPU ohne Offloading.
Nein. Ollama, vLLM und OpenWebUI funktionieren wie gewohnt. Die GPU-Änderung ist transparent für Ihre Anwendungen.
1.549,90€/Monat – wie bisher, aber jetzt mit deutlich mehr Leistung.
Ja, ab sofort auf Anfrage. Begrenzte Verfügbarkeit.
Lassen Sie uns über Ihre Idee sprechen
Ob konkrete IT-Herausforderung oder einfach eine Idee – wir freuen uns auf den Austausch. In einem kurzen Gespräch prüfen wir gemeinsam, ob und wie Ihr Projekt zu WZ-IT passt.

Timo Wevelsiep & Robin Zins
Geschäftsführer



