WZ-IT Logo

Upgrade-Announcement: Unsere Cloud GPU Server laufen jetzt auf NVIDIA RTX 6000 Blackwell

Timo Wevelsiep
Timo Wevelsiep
#AI #GPU #NVIDIA #Blackwell #LLM #Inferenz #CloudServer #DSGVO #AIServer

Mehr GPU-Power für Ihre KI-Anwendungen? Unser AI Server Pro läuft ab sofort auf der NVIDIA RTX 6000 Blackwell Max-Q mit 96 GB VRAM. Jetzt Beratungsgespräch vereinbaren →

Ab sofort setzen wir in unserem AI Server Pro nicht mehr auf die RTX 6000 Ada, sondern auf die NVIDIA RTX 6000 Blackwell Max-Q. Damit bekommen Sie in der Cloud deutlich mehr Headroom für große Modelle, längere Kontexte und höhere Durchsatzanforderungen – ohne Ihr Setup (Ollama/vLLM/OpenWebUI) neu denken zu müssen.


Inhaltsverzeichnis


Die Kernänderungen auf einen Blick

1) Deutlich mehr VRAM: 96 GB statt 48 GB

Unsere Pro-Instanzen kommen jetzt mit 96 GB GDDR7 VRAM (ECC) in der Blackwell-Generation – die RTX 6000 Ada lag bei 48 GB GDDR6 (ECC). Das ist die wichtigste Änderung für LLMs, weil VRAM in der Praxis über Modellgröße, Kontextlänge, Batch-Größe und Parallelität entscheidet.

2) Neue Architektur (Blackwell) und neue Core-Generationen

Die RTX PRO 6000 Blackwell Serie bringt Blackwell-Architektur, 5th-Gen Tensor Cores und 4th-Gen RT Cores. Die RTX 6000 Ada basiert auf Ada Lovelace mit 4th-Gen Tensor Cores und 3rd-Gen RT Cores. Für AI-Workloads ist vor allem der Sprung bei den Tensor Cores relevant.

3) Plattform-Modernisierung: PCIe Gen 5 vs. PCIe Gen 4

Die RTX PRO 6000 Blackwell Varianten sind auf PCIe Gen 5 x16 ausgelegt, die RTX 6000 Ada auf PCIe Gen 4 x16. Das kann je nach Workload (z. B. Daten-Streaming, Multi-Node Pipelines) zusätzliche Reserven bringen.

4) Max-Q: Dichte & Effizienz für skalierbare Setups

Wir setzen im AI Server Pro auf die Max-Q-Variante. NVIDIA positioniert diese explizit für dichte Konfigurationen und als Balance aus Performance und Energieeffizienz – ideal, wenn man Performance pro Rack/Server optimieren will.


Warum dieser Schritt: größere Modelle, längere Kontexte, mehr gleichzeitige Nutzer

In der Praxis sehen wir bei produktiven LLM-Anwendungen drei typische Engpässe:

  1. VRAM-Limit – Modell passt nicht vollständig in die GPU
  2. Time-to-First-Token – Prompt Processing / Prefill ist zu langsam
  3. Durchsatz – Token-Generierung unter Last zu niedrig

Mit Blackwell adressieren wir genau diese Punkte: mehr VRAM für große Modelle/Long Context und spürbar mehr Performance sowohl im Prompt Processing als auch bei der Token-Generierung.


Performance: Blackwell vs. Ada (LLM-Inference Benchmarks)

Für eine externe, nachvollziehbare Einordnung nutzen wir die Messwerte von Hardware Corner. Dort wird mit llama.cpp / llama-bench auf Ubuntu 24.04 und CUDA 12.8 getestet; die Token-Generation ist in Tokens/Sekunde, bei 4-bit Quantisierung (Q4_K_XL).

Token-Generierung bei 16K Kontext

Modell (16K Kontext, 4-bit) RTX 6000 Ada (t/s) RTX 6000 Blackwell (t/s) Vorteil Blackwell
Qwen3 8B 98,68 140,62 +42,5%
Qwen3 14B 58,51 96,86 +65,5%
Qwen3 30B 120,12 139,76 +16,4%
Qwen3 32B 25,08 45,72 +82,3%
gpt-oss 20B 137,10 237,92 +73,5%
Llama 70B 13,65 28,24 +106,9%

Quelle: Hardware Corner Token-Generation Tabelle (16K Kontext)

Wichtig für die Praxis: Je größer Modell und Kontext, desto eher zahlt sich Blackwell aus. Bei 65K Kontext sieht man in mehreren Fällen nahezu eine Verdopplung (oder mehr) der Token-Generierung – z. B. Qwen3 14B +123%, Qwen3 32B +173%.

Prompt Processing (Time-to-First-Token)

Das Prefill/Prompt-Processing ist oft der unterschätzte Faktor. Bei 16K Kontext:

Modell RTX 6000 Ada (tok/s) RTX 6000 Blackwell (tok/s) Vorteil
Qwen3 8B 4.096 7.588 +85%
Llama 3.3 70B 526 1.355 +158%

Das ist besonders relevant bei RAG (lange Prompts), Tool-Use oder Multi-Turn Chats – weil es direkt die gefühlte Responsiveness beeinflusst.


Was Ihnen 96 GB VRAM konkret ermöglichen

Der größte Sprung ist nicht „nur" schneller – sondern mehr machbar auf einer einzelnen GPU:

  • 100B+-Klasse ohne Offloading / ohne Multi-GPU als Zwang: Die 96-GB-Klasse ist die praktikable Single-GPU-Option, wenn Modelle im 100B+ Parameterbereich ohne System-RAM-Offloading laufen sollen.
  • Mit Blackwell laufen auch große Modelle wie GPT-OSS 120B (~150 t/s) oder Mistral Large 123B direkt auf einer GPU.

Vergleich: Was passt auf welche GPU?

Modell RTX 6000 Ada (48 GB) RTX 6000 Blackwell (96 GB)
Llama 3.1 8B (Q4)
Llama 3.1 70B (Q4) ⚠️ knapp
Qwen3 32B (Q4)
GPT-OSS 120B (MXFP4)
Mistral Large 123B (Q4)

Was bleibt gleich: Ihr Stack, Ihre Kontrolle, Ihr Standort

Der GPU-Wechsel ändert nichts am Grundprinzip unserer AI-Server:

  • DSGVO-konformes Hosting in Deutschland und ISO 27001 Rechenzentrumsbetrieb
  • Dedizierte GPU-Ressourcen ohne Sharing – optimiert für niedrige Latenz und hohen Durchsatz
  • Auf Wunsch weiterhin Ollama & vLLM Setup, OpenWebUI Installation, GPU-Optimierung
  • Beim AI Server Pro zusätzlich Modell-Training (Feinabstimmung) möglich

Hinweis zur Übertragbarkeit der Benchmarks

Die oben zitierten Werte stammen aus einem klar definierten Test-Setup (llama.cpp/llama-bench, CUDA 12.8, 4-bit Quantisierung). In produktiven Umgebungen (z. B. vLLM, andere Quantisierungen, Batch-Settings, KV-Cache-Strategien) können absolute Zahlen abweichen – die Richtung (mehr VRAM + deutlicher Performance-Sprung) ist jedoch konsistent.


Verfügbarkeit & nächster Schritt

Der AI Server Pro mit NVIDIA RTX 6000 Blackwell Max-Q (96 GB GDDR7) ist ab sofort verfügbar (auf Anfrage, begrenzte Verfügbarkeit).

Wenn Sie bereits ein konkretes Ziel haben (z. B. „70B-Chat mit 32K Kontext und X parallelen Nutzern" oder „RAG mit großem Dokumentenkorpus"), können wir daraus sehr schnell eine passende Konfiguration und Inferenz-Engine-Empfehlung (Ollama vs. vLLM) ableiten.

Jetzt Beratungsgespräch vereinbaren →


Weiterführende Guides

Häufig gestellte Fragen

Antworten auf wichtige Fragen zu diesem Thema

Wir wechseln von der RTX 6000 Ada (48 GB VRAM) auf die RTX 6000 Blackwell Max-Q (96 GB VRAM). Doppelt so viel VRAM, neue Architektur, mehr Performance.

Je nach Modell und Kontext 40-170% schneller. Bei großen Modellen wie Llama 70B verdoppelt sich die Token-Generierung.

Mit 96 GB VRAM laufen auch 100B+ Modelle wie GPT-OSS 120B oder Mistral Large 123B auf einer einzelnen GPU ohne Offloading.

Nein. Ollama, vLLM und OpenWebUI funktionieren wie gewohnt. Die GPU-Änderung ist transparent für Ihre Anwendungen.

1.549,90€/Monat – wie bisher, aber jetzt mit deutlich mehr Leistung.

Ja, ab sofort auf Anfrage. Begrenzte Verfügbarkeit.

Lassen Sie uns über Ihre Idee sprechen

Ob konkrete IT-Herausforderung oder einfach eine Idee – wir freuen uns auf den Austausch. In einem kurzen Gespräch prüfen wir gemeinsam, ob und wie Ihr Projekt zu WZ-IT passt.

Vertraut von führenden Unternehmen

  • Keymate
  • SolidProof
  • Rekorder
  • Führerscheinmacher
  • ARGE
  • NextGym
  • Paritel
  • EVADXB
  • Boese VA
  • Maho Management
  • Aphy
  • Negosh
  • Millenium
  • Yonju
  • Mr. Clipart
Timo Wevelsiep & Robin Zins - CEOs of WZ-IT

Timo Wevelsiep & Robin Zins

Geschäftsführer

1/3 – Themenauswahl33%

Worum geht es bei Ihrer Anfrage?

Wählen Sie einen oder mehrere Bereiche, bei denen wir Sie unterstützen dürfen.