Upgrade-Announcement: Unsere Cloud GPU Server laufen jetzt auf NVIDIA RTX 6000 Blackwell

Hinweis zum Inhalt: Die Informationen in diesem Artikel wurden nach bestem Wissen zum Zeitpunkt der Veröffentlichung zusammengestellt. Technische Details, Preise, Versionen, Lizenzmodelle und externe Inhalte können sich ändern. Bitte prüfen Sie die genannten Angaben eigenständig, insbesondere vor geschäftskritischen oder sicherheitsrelevanten Entscheidungen. Dieser Artikel ersetzt keine individuelle Fach-, Rechts- oder Steuerberatung.

Mehr GPU-Power für Ihre KI-Anwendungen? Unser AI Server Pro läuft ab sofort auf der NVIDIA RTX 6000 Blackwell Max-Q mit 96 GB VRAM. Jetzt Beratungsgespräch vereinbaren →
Ab sofort setzen wir in unserem AI Server Pro nicht mehr auf die RTX 6000 Ada, sondern auf die NVIDIA RTX 6000 Blackwell Max-Q. Damit bekommen Sie in der Cloud deutlich mehr Headroom für große Modelle, längere Kontexte und höhere Durchsatzanforderungen – ohne Ihr Setup (Ollama/vLLM/OpenWebUI) neu denken zu müssen.
Inhaltsverzeichnis
- Die Kernänderungen auf einen Blick
- Warum dieser Schritt
- Performance: Blackwell vs. Ada
- Was 96 GB VRAM konkret ermöglichen
- Was bleibt gleich
- Verfügbarkeit
Die Kernänderungen auf einen Blick
1) Deutlich mehr VRAM: 96 GB statt 48 GB
Unsere Pro-Instanzen kommen jetzt mit 96 GB GDDR7 VRAM (ECC) in der Blackwell-Generation – die RTX 6000 Ada lag bei 48 GB GDDR6 (ECC). Das ist die wichtigste Änderung für LLMs, weil VRAM in der Praxis über Modellgröße, Kontextlänge, Batch-Größe und Parallelität entscheidet.
2) Neue Architektur (Blackwell) und neue Core-Generationen
Die RTX PRO 6000 Blackwell Serie bringt Blackwell-Architektur, 5th-Gen Tensor Cores und 4th-Gen RT Cores. Die RTX 6000 Ada basiert auf Ada Lovelace mit 4th-Gen Tensor Cores und 3rd-Gen RT Cores. Für AI-Workloads ist vor allem der Sprung bei den Tensor Cores relevant.
3) Plattform-Modernisierung: PCIe Gen 5 vs. PCIe Gen 4
Die RTX PRO 6000 Blackwell Varianten sind auf PCIe Gen 5 x16 ausgelegt, die RTX 6000 Ada auf PCIe Gen 4 x16. Das kann je nach Workload (z. B. Daten-Streaming, Multi-Node Pipelines) zusätzliche Reserven bringen.
4) Max-Q: Dichte & Effizienz für skalierbare Setups
Wir setzen im AI Server Pro auf die Max-Q-Variante. NVIDIA positioniert diese explizit für dichte Konfigurationen und als Balance aus Performance und Energieeffizienz – ideal, wenn man Performance pro Rack/Server optimieren will.
Warum dieser Schritt: größere Modelle, längere Kontexte, mehr gleichzeitige Nutzer
In der Praxis sehen wir bei produktiven LLM-Anwendungen drei typische Engpässe:
- VRAM-Limit – Modell passt nicht vollständig in die GPU
- Time-to-First-Token – Prompt Processing / Prefill ist zu langsam
- Durchsatz – Token-Generierung unter Last zu niedrig
Mit Blackwell adressieren wir genau diese Punkte: mehr VRAM für große Modelle/Long Context und spürbar mehr Performance sowohl im Prompt Processing als auch bei der Token-Generierung.
Performance: Blackwell vs. Ada (LLM-Inference Benchmarks)
Für eine externe, nachvollziehbare Einordnung nutzen wir die Messwerte von Hardware Corner. Dort wird mit llama.cpp / llama-bench auf Ubuntu 24.04 und CUDA 12.8 getestet; die Token-Generation ist in Tokens/Sekunde, bei 4-bit Quantisierung (Q4_K_XL).
Token-Generierung bei 16K Kontext
| Modell (16K Kontext, 4-bit) | RTX 6000 Ada (t/s) | RTX 6000 Blackwell (t/s) | Vorteil Blackwell |
|---|---|---|---|
| Qwen3 8B | 98,68 | 140,62 | +42,5% |
| Qwen3 14B | 58,51 | 96,86 | +65,5% |
| Qwen3 30B | 120,12 | 139,76 | +16,4% |
| Qwen3 32B | 25,08 | 45,72 | +82,3% |
| gpt-oss 20B | 137,10 | 237,92 | +73,5% |
| Llama 70B | 13,65 | 28,24 | +106,9% |
Quelle: Hardware Corner Token-Generation Tabelle (16K Kontext)
Wichtig für die Praxis: Je größer Modell und Kontext, desto eher zahlt sich Blackwell aus. Bei 65K Kontext sieht man in mehreren Fällen nahezu eine Verdopplung (oder mehr) der Token-Generierung – z. B. Qwen3 14B +123%, Qwen3 32B +173%.
Prompt Processing (Time-to-First-Token)
Das Prefill/Prompt-Processing ist oft der unterschätzte Faktor. Bei 16K Kontext:
| Modell | RTX 6000 Ada (tok/s) | RTX 6000 Blackwell (tok/s) | Vorteil |
|---|---|---|---|
| Qwen3 8B | 4.096 | 7.588 | +85% |
| Llama 3.3 70B | 526 | 1.355 | +158% |
Das ist besonders relevant bei RAG (lange Prompts), Tool-Use oder Multi-Turn Chats – weil es direkt die gefühlte Responsiveness beeinflusst.
Was Ihnen 96 GB VRAM konkret ermöglichen
Der größte Sprung ist nicht „nur" schneller – sondern mehr machbar auf einer einzelnen GPU:
- 100B+-Klasse ohne Offloading / ohne Multi-GPU als Zwang: Die 96-GB-Klasse ist die praktikable Single-GPU-Option, wenn Modelle im 100B+ Parameterbereich ohne System-RAM-Offloading laufen sollen.
- Mit Blackwell laufen auch große Modelle wie GPT-OSS 120B (~150 t/s) oder Mistral Large 123B direkt auf einer GPU.
Vergleich: Was passt auf welche GPU?
| Modell | RTX 6000 Ada (48 GB) | RTX 6000 Blackwell (96 GB) |
|---|---|---|
| Llama 3.1 8B (Q4) | ✅ | ✅ |
| Llama 3.1 70B (Q4) | ⚠️ knapp | ✅ |
| Qwen3 32B (Q4) | ✅ | ✅ |
| GPT-OSS 120B (MXFP4) | ❌ | ✅ |
| Mistral Large 123B (Q4) | ❌ | ✅ |
Was bleibt gleich: Ihr Stack, Ihre Kontrolle, Ihr Standort
Der GPU-Wechsel ändert nichts am Grundprinzip unserer AI-Server:
- DSGVO-konformes Hosting in Deutschland und ISO 27001 & BSI C5 Rechenzentrumsbetrieb
- Dedizierte GPU-Ressourcen ohne Sharing – optimiert für niedrige Latenz und hohen Durchsatz
- Auf Wunsch weiterhin Ollama & vLLM Setup, OpenWebUI Installation, GPU-Optimierung
- Beim AI Server Pro zusätzlich Modell-Training (Feinabstimmung) möglich
Hinweis zur Übertragbarkeit der Benchmarks
Die oben zitierten Werte stammen aus einem klar definierten Test-Setup (llama.cpp/llama-bench, CUDA 12.8, 4-bit Quantisierung). In produktiven Umgebungen (z. B. vLLM, andere Quantisierungen, Batch-Settings, KV-Cache-Strategien) können absolute Zahlen abweichen – die Richtung (mehr VRAM + deutlicher Performance-Sprung) ist jedoch konsistent.
Verfügbarkeit & nächster Schritt
Der AI Server Pro mit NVIDIA RTX 6000 Blackwell Max-Q (96 GB GDDR7) ist ab sofort verfügbar (auf Anfrage, begrenzte Verfügbarkeit).
Wenn Sie bereits ein konkretes Ziel haben (z. B. „70B-Chat mit 32K Kontext und X parallelen Nutzern" oder „RAG mit großem Dokumentenkorpus"), können wir daraus sehr schnell eine passende Konfiguration und Inferenz-Engine-Empfehlung (Ollama vs. vLLM) ableiten.
Jetzt Beratungsgespräch vereinbaren →
Weiterführende Guides
Häufig gestellte Fragen
Antworten auf wichtige Fragen zu diesem Thema
Wir wechseln von der RTX 6000 Ada (48 GB VRAM) auf die RTX 6000 Blackwell Max-Q (96 GB VRAM). Doppelt so viel VRAM, neue Architektur, mehr Performance.
Je nach Modell und Kontext 40-170% schneller. Bei großen Modellen wie Llama 70B verdoppelt sich die Token-Generierung.
Mit 96 GB VRAM laufen auch 100B+ Modelle wie GPT-OSS 120B oder Mistral Large 123B auf einer einzelnen GPU ohne Offloading.
Nein. Ollama, vLLM und OpenWebUI funktionieren wie gewohnt. Die GPU-Änderung ist transparent für Ihre Anwendungen.
1.549,90€/Monat – wie bisher, aber jetzt mit deutlich mehr Leistung.
Ja, ab sofort auf Anfrage. Begrenzte Verfügbarkeit.

Geschrieben von
Timo Wevelsiep
Co-Founder & CEO
Co-Founder von WZ-IT. Spezialisiert auf Cloud-Infrastruktur, Open-Source-Plattformen und Managed Services für KMUs und Enterprise-Kunden weltweit.
LinkedInLassen Sie uns über Ihre Idee sprechen
Ob konkrete IT-Herausforderung oder einfach eine Idee – wir freuen uns auf den Austausch. In einem kurzen Gespräch prüfen wir gemeinsam, ob und wie Ihr Projekt zu WZ-IT passt.


Timo Wevelsiep & Robin Zins
Geschäftsführer




