Upgrade-Announcement: Unsere Cloud GPU Server laufen jetzt auf NVIDIA RTX 6000 Blackwell

Timo Wevelsiep

•12.12.2025

#AI #GPU #NVIDIA #Blackwell #LLM #Inferenz #CloudServer #DSGVO #AIServer

Hinweis zum Inhalt: Die Informationen in diesem Artikel wurden nach bestem Wissen zum Zeitpunkt der Veröffentlichung zusammengestellt. Technische Details, Preise, Versionen, Lizenzmodelle und externe Inhalte können sich ändern. Bitte prüfen Sie die genannten Angaben eigenständig, insbesondere vor geschäftskritischen oder sicherheitsrelevanten Entscheidungen. Dieser Artikel ersetzt keine individuelle Fach-, Rechts- oder Steuerberatung.

Upgrade-Announcement: Unsere Cloud GPU Server laufen jetzt auf NVIDIA RTX 6000 Blackwell

Mehr GPU-Power für Ihre KI-Anwendungen? Unser AI Server Pro läuft ab sofort auf der NVIDIA RTX 6000 Blackwell Max-Q mit 96 GB VRAM. Jetzt Beratungsgespräch vereinbaren →

Ab sofort setzen wir in unserem AI Server Pro nicht mehr auf die RTX 6000 Ada, sondern auf die NVIDIA RTX 6000 Blackwell Max-Q. Damit bekommen Sie in der Cloud deutlich mehr Headroom für große Modelle, längere Kontexte und höhere Durchsatzanforderungen – ohne Ihr Setup (Ollama/vLLM/OpenWebUI) neu denken zu müssen.

Die Kernänderungen auf einen Blick

1) Deutlich mehr VRAM: 96 GB statt 48 GB

Unsere Pro-Instanzen kommen jetzt mit 96 GB GDDR7 VRAM (ECC) in der Blackwell-Generation – die RTX 6000 Ada lag bei 48 GB GDDR6 (ECC). Das ist die wichtigste Änderung für LLMs, weil VRAM in der Praxis über Modellgröße, Kontextlänge, Batch-Größe und Parallelität entscheidet.

2) Neue Architektur (Blackwell) und neue Core-Generationen

Die RTX PRO 6000 Blackwell Serie bringt Blackwell-Architektur, 5th-Gen Tensor Cores und 4th-Gen RT Cores. Die RTX 6000 Ada basiert auf Ada Lovelace mit 4th-Gen Tensor Cores und 3rd-Gen RT Cores. Für AI-Workloads ist vor allem der Sprung bei den Tensor Cores relevant.

3) Plattform-Modernisierung: PCIe Gen 5 vs. PCIe Gen 4

Die RTX PRO 6000 Blackwell Varianten sind auf PCIe Gen 5 x16 ausgelegt, die RTX 6000 Ada auf PCIe Gen 4 x16. Das kann je nach Workload (z. B. Daten-Streaming, Multi-Node Pipelines) zusätzliche Reserven bringen.

4) Max-Q: Dichte & Effizienz für skalierbare Setups

Wir setzen im AI Server Pro auf die Max-Q-Variante. NVIDIA positioniert diese explizit für dichte Konfigurationen und als Balance aus Performance und Energieeffizienz – ideal, wenn man Performance pro Rack/Server optimieren will.

Warum dieser Schritt: größere Modelle, längere Kontexte, mehr gleichzeitige Nutzer

In der Praxis sehen wir bei produktiven LLM-Anwendungen drei typische Engpässe:

VRAM-Limit – Modell passt nicht vollständig in die GPU
Time-to-First-Token – Prompt Processing / Prefill ist zu langsam
Durchsatz – Token-Generierung unter Last zu niedrig

Mit Blackwell adressieren wir genau diese Punkte: mehr VRAM für große Modelle/Long Context und spürbar mehr Performance sowohl im Prompt Processing als auch bei der Token-Generierung.

Performance: Blackwell vs. Ada (LLM-Inference Benchmarks)

Für eine externe, nachvollziehbare Einordnung nutzen wir die Messwerte von Hardware Corner. Dort wird mit llama.cpp / llama-bench auf Ubuntu 24.04 und CUDA 12.8 getestet; die Token-Generation ist in Tokens/Sekunde, bei 4-bit Quantisierung (Q4_K_XL).

Token-Generierung bei 16K Kontext

Modell (16K Kontext, 4-bit)	RTX 6000 Ada (t/s)	RTX 6000 Blackwell (t/s)	Vorteil Blackwell
Qwen3 8B	98,68	140,62	+42,5%
Qwen3 14B	58,51	96,86	+65,5%
Qwen3 30B	120,12	139,76	+16,4%
Qwen3 32B	25,08	45,72	+82,3%
gpt-oss 20B	137,10	237,92	+73,5%
Llama 70B	13,65	28,24	+106,9%

Quelle: Hardware Corner Token-Generation Tabelle (16K Kontext)

Wichtig für die Praxis: Je größer Modell und Kontext, desto eher zahlt sich Blackwell aus. Bei 65K Kontext sieht man in mehreren Fällen nahezu eine Verdopplung (oder mehr) der Token-Generierung – z. B. Qwen3 14B +123%, Qwen3 32B +173%.

Prompt Processing (Time-to-First-Token)

Das Prefill/Prompt-Processing ist oft der unterschätzte Faktor. Bei 16K Kontext:

Modell	RTX 6000 Ada (tok/s)	RTX 6000 Blackwell (tok/s)	Vorteil
Qwen3 8B	4.096	7.588	+85%
Llama 3.3 70B	526	1.355	+158%

Das ist besonders relevant bei RAG (lange Prompts), Tool-Use oder Multi-Turn Chats – weil es direkt die gefühlte Responsiveness beeinflusst.

Was Ihnen 96 GB VRAM konkret ermöglichen

Der größte Sprung ist nicht „nur" schneller – sondern mehr machbar auf einer einzelnen GPU:

100B+-Klasse ohne Offloading / ohne Multi-GPU als Zwang: Die 96-GB-Klasse ist die praktikable Single-GPU-Option, wenn Modelle im 100B+ Parameterbereich ohne System-RAM-Offloading laufen sollen.
Mit Blackwell laufen auch große Modelle wie GPT-OSS 120B (~150 t/s) oder Mistral Large 123B direkt auf einer GPU.

Vergleich: Was passt auf welche GPU?

Modell	RTX 6000 Ada (48 GB)	RTX 6000 Blackwell (96 GB)
Llama 3.1 8B (Q4)	✅	✅
Llama 3.1 70B (Q4)	⚠️ knapp	✅
Qwen3 32B (Q4)	✅	✅
GPT-OSS 120B (MXFP4)	❌	✅
Mistral Large 123B (Q4)	❌	✅

Was bleibt gleich: Ihr Stack, Ihre Kontrolle, Ihr Standort

Der GPU-Wechsel ändert nichts am Grundprinzip unserer AI-Server:

DSGVO-konformes Hosting in Deutschland und ISO 27001 & BSI C5 Rechenzentrumsbetrieb
Dedizierte GPU-Ressourcen ohne Sharing – optimiert für niedrige Latenz und hohen Durchsatz
Auf Wunsch weiterhin Ollama & vLLM Setup, OpenWebUI Installation, GPU-Optimierung
Beim AI Server Pro zusätzlich Modell-Training (Feinabstimmung) möglich

Hinweis zur Übertragbarkeit der Benchmarks

Die oben zitierten Werte stammen aus einem klar definierten Test-Setup (llama.cpp/llama-bench, CUDA 12.8, 4-bit Quantisierung). In produktiven Umgebungen (z. B. vLLM, andere Quantisierungen, Batch-Settings, KV-Cache-Strategien) können absolute Zahlen abweichen – die Richtung (mehr VRAM + deutlicher Performance-Sprung) ist jedoch konsistent.

Verfügbarkeit & nächster Schritt

Der AI Server Pro mit NVIDIA RTX 6000 Blackwell Max-Q (96 GB GDDR7) ist ab sofort verfügbar (auf Anfrage, begrenzte Verfügbarkeit).

Wenn Sie bereits ein konkretes Ziel haben (z. B. „70B-Chat mit 32K Kontext und X parallelen Nutzern" oder „RAG mit großem Dokumentenkorpus"), können wir daraus sehr schnell eine passende Konfiguration und Inferenz-Engine-Empfehlung (Ollama vs. vLLM) ableiten.

Jetzt Beratungsgespräch vereinbaren →

Weiterführende Guides

Häufig gestellte Fragen

Antworten auf wichtige Fragen zu diesem Thema

Wir wechseln von der RTX 6000 Ada (48 GB VRAM) auf die RTX 6000 Blackwell Max-Q (96 GB VRAM). Doppelt so viel VRAM, neue Architektur, mehr Performance.

Je nach Modell und Kontext 40-170% schneller. Bei großen Modellen wie Llama 70B verdoppelt sich die Token-Generierung.

Mit 96 GB VRAM laufen auch 100B+ Modelle wie GPT-OSS 120B oder Mistral Large 123B auf einer einzelnen GPU ohne Offloading.

Nein. Ollama, vLLM und OpenWebUI funktionieren wie gewohnt. Die GPU-Änderung ist transparent für Ihre Anwendungen.

1.549,90€/Monat – wie bisher, aber jetzt mit deutlich mehr Leistung.

Ja, ab sofort auf Anfrage. Begrenzte Verfügbarkeit.

Geschrieben von

Timo Wevelsiep

Co-Founder & CEO

Co-Founder von WZ-IT. Spezialisiert auf Cloud-Infrastruktur, Open-Source-Plattformen und Managed Services für KMUs und Enterprise-Kunden weltweit.

Weitere Einblicke

Vorheriger Beitrag

Proxmox Cluster Netzwerk auf Hetzner: Private Networks + vSwitch richtig nutzen

Nächster Beitrag

Proxmox auf Hetzner in 5 Minuten: ZFS RAID1 Single-Node Setup mit Auto-Install Script

Zurück zur Übersicht

Upgrade-Announcement: Unsere Cloud GPU Server laufen jetzt auf NVIDIA RTX 6000 Blackwell

Inhaltsverzeichnis

Die Kernänderungen auf einen Blick

1) Deutlich mehr VRAM: 96 GB statt 48 GB

2) Neue Architektur (Blackwell) und neue Core-Generationen

3) Plattform-Modernisierung: PCIe Gen 5 vs. PCIe Gen 4

4) Max-Q: Dichte & Effizienz für skalierbare Setups

Warum dieser Schritt: größere Modelle, längere Kontexte, mehr gleichzeitige Nutzer

Performance: Blackwell vs. Ada (LLM-Inference Benchmarks)

Token-Generierung bei 16K Kontext

Prompt Processing (Time-to-First-Token)

Was Ihnen 96 GB VRAM konkret ermöglichen

Vergleich: Was passt auf welche GPU?

Was bleibt gleich: Ihr Stack, Ihre Kontrolle, Ihr Standort

Hinweis zur Übertragbarkeit der Benchmarks

Verfügbarkeit & nächster Schritt

Weiterführende Guides

Häufig gestellte Fragen

Was ändert sich beim AI Server Pro?

Wie viel schneller ist Blackwell bei LLM-Inferenz?

Welche Modelle laufen jetzt auf einer GPU?

Muss ich mein Setup anpassen?

Was kostet der AI Server Pro mit Blackwell?

Ist der Server sofort verfügbar?

Weitere Einblicke

Lassen Sie uns über Ihre Idee sprechen

Worum geht es bei Ihrer Anfrage?

Cloud & Infrastruktur (Hosting, Setup & Migration)

Individuelle Softwareentwicklung

KI & LLM-Lösungen (inkl. AI-Server)

IT-Sicherheit & Identitätsmanagement

IoT & LoRaWAN (Sensoren, Plattformen & Netzwerke)

IT-Beratung & Strategie

Etwas anderes