Welche Modelle kann ich auf dem Pro Cube betreiben?

Alle gängigen Open-Source-Modelle bis ca. 120B+ Parameter: Llama 3.1 70B, DeepSeek-R1, GPT-OSS 120B (quantisiert), Mixtral 8x22B und viele mehr. Mit 96 GB VRAM haben Sie maximale Flexibilität.

Benötige ich besondere Kühlung?

Nein, normale Büroumgebung reicht aus. Der Cube ist für Umgebungstemperaturen bis 30°C ausgelegt. Eine gute Belüftung ist empfehlenswert.

Gibt es Software-Lizenzen?

Nein, alle vorinstallierte Software (Ollama, vLLM, Open WebUI) ist Open Source und lizenzfrei. Sie zahlen keine laufenden Software-Gebühren.

Ist der Managed Service Pflicht?

Nein, der Managed Service ist optional. Sie erhalten vollen Root-Zugriff und können den Cube selbst administrieren. Viele Kunden wählen jedoch den Managed Service für professionelle Betreuung.

DE EN

[email protected]

DE EN

AI Cube Pro NVIDIA RTX PRO 6000 Blackwell 96 GB VRAM - Enterprise KI-Inferenz Server für große LLMs

Enterprise-Modell

DSGVO-konform

NVIDIA RTX Blackwell

MadeinGermany

AI Cube Pro – Premium-Leistung für Ihre KI-Infrastruktur

Name: AI Cube Pro - NVIDIA RTX PRO 6000 Blackwell
Brand: WZ-IT
SKU: AI-CUBE-PRO-RTX6000
Price: 13599.90 EUR
Availability: InStock
Rating: 5.0 (8 reviews)

High-End KI-Inferenz mit NVIDIA RTX PRO 6000 Blackwell – perfekt für große LLMs, RAG-Systeme mit Millionen Dokumenten, Training & Fine-Tuning und Modelle bis 120B+ Parameter.

230 V • ATX

Zum Basic-Modell

Technische Highlights RTX PRO 6000 Blackwell

Enterprise-Hardware mit 96 GB VRAM für maximale Performance

NVIDIA RTX PRO 6000 Blackwell

96 GB GDDR7 VRAM

Ausreichend für Modelle bis 120B+ Parameter

125 TFLOPS FP32

24.064 CUDA Cores

Maximale Performance für große LLMs

Anwendungsfälle für große LLMs und RAG-Systeme

Interne Chatbots

Betreiben Sie KI-Assistenten für Kundenservice oder interne Wissensdatenbanken – vollständig lokal und DSGVO-konform.

Code-Assistenz

Nutzen Sie Modelle wie Qwen oder DeepSeek für Code-Completion, Review und Dokumentation – ohne Ihre Codebasis in die Cloud zu schicken.

Kleine bis mittlere Modelle

Llama 3.1 (7B-13B), Gemma 3, Mistral 7B, Phi-4 und viele weitere Modelle.

Große LLMs (70B-120B+)

Betreiben Sie Modelle wie Llama 3.1 70B, DeepSeek-R1 oder GPT-OSS 120B vollständig lokal.

RAG-Systeme

Verarbeiten Sie Wissensdatenbanken mit tausenden bis Millionen von Dokumenten.

Multi-Modell-Betrieb

Betreiben Sie mehrere Modelle parallel – je nach Hardwarekonfiguration.

Empfohlen für bis zu 20 parallele Nutzer

Perfekt für mittelgroße Teams mit hohen Performance-Anforderungen und produktiven Workloads

Performance-Benchmarks

Datacenter Performance for Your Office

Enterprise-Performance des AI Cube Pro mit großen Open-Source-Modellen

GPT-OSS 20B

~20 Milliarden Parameter

200token/s

Batch Size 1

GPT-OSS 120B

~120 Milliarden Parameter

150token/s

Batch Size 1

Alle Werte wurden mit Batch Size 1 gemessen und repräsentieren die Inferenz-Geschwindigkeit für interaktive Anwendungsfälle. Die tatsächliche Performance kann je nach Modellkonfiguration und Prompt-Länge variieren. Höhere Batch-Sizes erhöhen den Durchsatz für parallele Anfragen.

Skalierbarkeit: Bei typischer Nutzung können bis zu 20 Anwender gleichzeitig arbeiten, ideal für Teams mit produktiven AI-Workflows und parallelen Inferenz-Jobs.

Lokale KI-Nutzung

Lokales GPT mit unserem AI Cube

Nutzen Sie Open WebUI für eine ChatGPT-ähnliche Erfahrung – vollständig lokal auf Ihrer eigenen Hardware

Open WebUI Interface - Lokale ChatGPT Alternative für AI Cube Pro mit RTX PRO 6000

Der AI Cube kann je nach Kundenanforderungen mit Open WebUI ausgeliefert werden – einer intuitiven, benutzerfreundlichen Oberfläche, die eine lokale ChatGPT-ähnliche Erfahrung ermöglicht. Keine Cloud-Abhängigkeit, keine API-Schlüssel, keine Token-Limits – nur Sie und Ihre KI-Modelle.

ChatGPT-ähnliche Oberfläche

Vertraute und intuitive Benutzeroberfläche für natürliche Konversationen mit Ihren lokalen KI-Modellen

Vollständig lokal

Alle Daten und Gespräche bleiben auf Ihrer Hardware – keine Verbindung zu externen Servern erforderlich

Multi-Modell-Support

Wechseln Sie nahtlos zwischen verschiedenen KI-Modellen innerhalb derselben Oberfläche

Keine Token-Gebühren

Unbegrenzte Nutzung ohne Pay-per-Use-Gebühren oder monatliche API-Kosten

Open WebUI kann auf Wunsch vorinstalliert und einsatzbereit ausgeliefert werden. Einfach anschließen, einschalten und sofort mit Ihren lokalen KI-Modellen interagieren – wie ChatGPT, aber vollständig unter Ihrer Kontrolle.

Vorinstalliert

Sofort einsatzbereit

100% lokal

Enterprise & Pro Service

Vor-Ort-Service für maximale Sicherheit & Komfort

Für unsere AI Cube Pro Kunden bieten wir persönliche Lieferung und professionelle Inbetriebnahme in Deutschland und den Niederlanden. Für Enterprise-Kunden ist dieser Service europaweit verfügbar.

Sichere Lieferung

Direkt zu Ihrem Firmensitz oder zu Ihren Kunden – persönlich

Physische Installation

Professionelle Installation und Verkabelung vor Ort

Initial-Setup

Betriebssystem, GPU-Treiber, Container-Umgebung und Security-Konfiguration (VPN, Firewall, Backup)

Validierung & Abnahme

Leistungstest, Stabilitätscheck und DSGVO-Konformitätsprüfung vor Inbetriebnahme

Rundum-Sorglos-Paket

Für Enterprise & Pro Kunden

Unser Vor-Ort-Service sorgt dafür, dass Ihr AI Cube von Anfang an optimal läuft – ohne dass Sie sich um Installation oder Konfiguration kümmern müssen.

Perfekt für Unternehmen, die Wert legen auf:

Höchste Qualitätsstandards

Compliance & Datenschutz

Saubere Integration

AI Cube Pro: DE & NL

Enterprise: Europaweit

Enterprise-Vorteile mit AI Cube Pro und 96 GB VRAM

Maximum Performance

125 TFLOPS und 96 GB VRAM – die leistungsstärkste Blackwell GPU für lokale Inferenz.

Enterprise Datensouveränität

Auch größte Modelle und umfangreiche RAG-Systeme bleiben vollständig in Ihrem Netzwerk.

Zukunftssicher

Mit 96 GB VRAM sind Sie für die nächsten Jahre gerüstet – auch für zukünftige Modellgenerationen.

Pro vs. Basic – welches Modell passt?

Vergleichen Sie die beiden AI Cube Modelle

SIE SIND HIER

AI Cube Pro

Bis zu 20 parallele Nutzer
NVIDIA RTX PRO 6000 Blackwell
96 GB VRAM
Modelle bis 120B+ Parameter
Ideal für große LLMs, RAG & Training

Ab 13.599,90 €

zzgl. MwSt.

EINSTIEG

AI Cube Basic

Bis zu 5 parallele Nutzer
NVIDIA RTX PRO 4000 Blackwell
24 GB VRAM
Modelle bis 20B Parameter
Ideal für Chatbots & Code-Assistenz

Ab 4.299,90 €

zzgl. MwSt.

Zum Basic-Modell

Praxisbeispiel: Klinikverbund

Wie eine Privatklinik den AI Cube Pro für medizinische Wissensdatenbanken nutzt

!Herausforderung

Ein Verbund psychiatrischer Privatkliniken benötigte eine KI-Lösung für die zentrale Wissensdatenbank mit medizinischen Protokollen, SOPs und Schulungsunterlagen. Sensible Patientendaten durften nicht in die Cloud.

✓Lösung mit AI Cube Pro

RAG-System mit Llama 3.1 70B für komplexe medizinische Anfragen
Integration mit BookStack als Wissensquelle (Custom-Entwicklung)
Vollständig lokaler Betrieb mit Managed Service durch WZ-IT

→Ergebnis

Sofortiger Zugriff auf relevante Protokolle

Standortübergreifende Wissenskonsistenz

Vollständige DSGVO-Konformität

Technische Spezifikationen

Grafikkarte	NVIDIA RTX PRO 6000 Blackwell (96 GB GDDR7)
Netzwerk	1 GbE (10 GbE optional)
Abmessungen & Gewicht	292×185×372 mm (H×B×T), ca. 8 kg
Zertifizierung	CE, RoHS, DSGVO-konform
Sicherheit	Secure Boot, TPM 2.0, WireGuard VPN

Im Lieferumfang enthalten

Vorinstallierte Software (Ollama, vLLM, Open WebUI)

Betriebssystem & GPU-Treiber

Setup-Dokumentation

Root-Zugriff & volle Kontrolle

Deutscher Support

Keine laufenden Kosten

Häufig gestellte Fragen zum AI Cube Pro

Bereit für Enterprise-KI-Infrastruktur?

Lassen Sie sich unverbindlich beraten

Weitere AI Cube Modelle

AI Cube Basic

Einstiegsmodell für Chatbots und Code-Assistenz

Mehr erfahren

Alle AI Cube Modelle

Übersicht aller verfügbaren Konfigurationen

Zur Übersicht

Blog & Tutorials

Verwalten Sie Ihren Stack im Kunden-Portal

Überwachen Sie Ihre Infrastruktur in Echtzeit, planen Sie Wartungen und erhalten Sie direkten Support – alles in einem zentralen Portal.

Live-Infrastruktur-Status in Echtzeit
Wartungsfenster selbst verschieben
Komplette Zugriffsprotokolle einsehen
Direkter Support ohne Umwege

Portal entdecken

Lassen Sie uns über Ihre Idee sprechen

Ob konkrete IT-Herausforderung oder einfach eine Idee – wir freuen uns auf den Austausch. In einem kurzen Gespräch prüfen wir gemeinsam, ob und wie Ihr Projekt zu WZ-IT passt.

E-Mail

[email protected]

Vertraut von führenden Unternehmen