Welche Modelle kann ich auf dem Basic Cube betreiben?

Alle gängigen Open-Source-Modelle bis ca. 20B Parameter (quantisiert): Llama 3.1 (7B-20B), Gemma 3, Mistral 7B, Phi-4, DeepSeek-Coder, Qwen und viele mehr. Bei 4-Bit-Quantisierung passen auch größere Modelle.

Kann ich den Cube später erweitern?

Ja, Sie können RAM, Speicher, Netzwerkkarten und auch die GPU erweitern oder austauschen. Wenn Sie mehr VRAM benötigen, empfehlen wir ein Upgrade auf den AI Cube Pro oder den Austausch der GPU gegen ein leistungsstärkeres Modell.

Ist der Basic ausreichend für ein RAG-System?

Ja, für RAG-Systeme mit kleineren bis mittleren Dokumentenmengen (bis ca. 100.000 Dokumente) ist der Basic ideal. Für größere Datenmengen oder komplexere Anfragen empfehlen wir den Pro.

Kann ich mehrere Modelle gleichzeitig betreiben?

Ja, mit 24 GB VRAM können Sie z.B. 2-3 kleinere Modelle (je 7B quantisiert) parallel laden. Über Ollama oder vLLM lassen sich mehrere Modelle gleichzeitig ansprechen.

DE EN

[email protected]

DE EN

AI Cube Basic NVIDIA RTX PRO 4000 Blackwell 24 GB VRAM - Lokale KI-Inferenz Server für Unternehmen

Einsteigermodell

DSGVO-konform

NVIDIA RTX Blackwell

MadeinGermany

AI Cube Basic – kompakt. leistungsstark. lokal.

Name: AI Cube Basic - NVIDIA RTX PRO 4000 Blackwell
Brand: WZ-IT
SKU: AI-CUBE-BASIC-RTX4000
Price: 4299.90 EUR
Availability: InStock
Rating: 5.0 (8 reviews)

Ihr Einstieg in die lokale KI-Inferenz mit NVIDIA RTX PRO 4000 Blackwell – perfekt für Chatbots, Code-Assistenz und Modelle bis 20B Parameter.

230 V • 292×185×372 mm • Mini-ITX

Zum Pro-Modell

Technische Highlights RTX PRO 4000 Blackwell

Enterprise-Hardware mit 24 GB VRAM im kompakten Mini-ITX Format

NVIDIA RTX PRO 4000 Blackwell

24 GB GDDR7 VRAM

Ausreichend für Modelle bis 20B Parameter (quantisiert)

46.9 TFLOPS FP32

8.960 CUDA Cores

Schnelle Inferenz in Echtzeit

Anwendungsfälle für lokale KI-Inferenz

Interne Chatbots

Betreiben Sie KI-Assistenten für Kundenservice oder interne Wissensdatenbanken – vollständig lokal und DSGVO-konform.

Code-Assistenz

Nutzen Sie Modelle wie Qwen oder DeepSeek für Code-Completion, Review und Dokumentation – ohne Ihre Codebasis in die Cloud zu schicken.

Kleine bis mittlere Modelle

Llama 3.1 (7B-13B), Gemma 3, Mistral 7B, Phi-4 und viele weitere Modelle.

Dokumentenanalyse

Analysieren Sie Dokumente, Verträge und Reports mit KI – vollständig lokal und vertraulich.

RAG-Systeme

Verarbeiten Sie Wissensdatenbanken mit tausenden bis Millionen von Dokumenten.

Multi-Modell-Betrieb

Betreiben Sie mehrere Modelle parallel – je nach Hardwarekonfiguration.

Empfohlen für bis zu 5 parallele Nutzer

Ideal für kleine Teams oder Einzelanwender mit moderaten Inferenz-Anforderungen

Performance-Benchmarks

Datacenter Performance for Your Office

Real-World-Performance des AI Cube Basic mit Open-Source-Modellen

GPT-OSS 20B

~20 Milliarden Parameter

50token/s

Batch Size 1

GPT-OSS 120B

~120 Milliarden Parameter

—

Go to AI Cube Pro

Alle Werte wurden mit Batch Size 1 gemessen und repräsentieren die Inferenz-Geschwindigkeit für interaktive Anwendungsfälle. Die tatsächliche Performance kann je nach Modellkonfiguration und Prompt-Länge variieren. Höhere Batch-Sizes erhöhen den Durchsatz für parallele Anfragen.

Skalierbarkeit: Bei typischer Nutzung können bis zu 5 Anwender gleichzeitig arbeiten, abhängig von Modellgröße und Anfrage-Komplexität.

Lokale KI-Nutzung

Lokales GPT mit unserem AI Cube

Nutzen Sie Open WebUI für eine ChatGPT-ähnliche Erfahrung – vollständig lokal auf Ihrer eigenen Hardware

Open WebUI Interface - Lokale ChatGPT Alternative für AI Cube Basic mit RTX PRO 4000

Der AI Cube kann je nach Kundenanforderungen mit Open WebUI ausgeliefert werden – einer intuitiven, benutzerfreundlichen Oberfläche, die eine lokale ChatGPT-ähnliche Erfahrung ermöglicht. Keine Cloud-Abhängigkeit, keine API-Schlüssel, keine Token-Limits – nur Sie und Ihre KI-Modelle.

ChatGPT-ähnliche Oberfläche

Vertraute und intuitive Benutzeroberfläche für natürliche Konversationen mit Ihren lokalen KI-Modellen

Vollständig lokal

Alle Daten und Gespräche bleiben auf Ihrer Hardware – keine Verbindung zu externen Servern erforderlich

Multi-Modell-Support

Wechseln Sie nahtlos zwischen verschiedenen KI-Modellen innerhalb derselben Oberfläche

Keine Token-Gebühren

Unbegrenzte Nutzung ohne Pay-per-Use-Gebühren oder monatliche API-Kosten

Open WebUI kann auf Wunsch vorinstalliert und einsatzbereit ausgeliefert werden. Einfach anschließen, einschalten und sofort mit Ihren lokalen KI-Modellen interagieren – wie ChatGPT, aber vollständig unter Ihrer Kontrolle.

Vorinstalliert

Sofort einsatzbereit

100% lokal

Enterprise & Pro Service

Vor-Ort-Service für maximale Sicherheit & Komfort

Für unsere AI Cube Pro Kunden bieten wir persönliche Lieferung und professionelle Inbetriebnahme in Deutschland und den Niederlanden. Für Enterprise-Kunden ist dieser Service europaweit verfügbar.

Sichere Lieferung

Direkt zu Ihrem Firmensitz oder zu Ihren Kunden – persönlich

Physische Installation

Professionelle Installation und Verkabelung vor Ort

Initial-Setup

Betriebssystem, GPU-Treiber, Container-Umgebung und Security-Konfiguration (VPN, Firewall, Backup)

Validierung & Abnahme

Leistungstest, Stabilitätscheck und DSGVO-Konformitätsprüfung vor Inbetriebnahme

Rundum-Sorglos-Paket

Für Enterprise & Pro Kunden

Unser Vor-Ort-Service sorgt dafür, dass Ihr AI Cube von Anfang an optimal läuft – ohne dass Sie sich um Installation oder Konfiguration kümmern müssen.

Perfekt für Unternehmen, die Wert legen auf:

Höchste Qualitätsstandards

Compliance & Datenschutz

Saubere Integration

AI Cube Pro: DE & NL

Enterprise: Europaweit

Vorteile lokaler KI-Inferenz mit AI Cube Basic

Datensouveränität

Alle Modelle und Daten bleiben in Ihrem Netzwerk. Keine Cloud-Abhängigkeit, keine Datenübertragung an Dritte.

Kosteneffizienz

Einmalige Investition statt monatlicher Token-Gebühren. Bereits nach wenigen Monaten amortisiert sich die Anschaffung.

Performance

Minimale Latenz durch lokale Inferenz. Keine Wartezeiten durch Cloud-Verbindungen.

Volle Kontrolle

Root-Zugriff, freie Modellwahl, keine API-Limits. Sie entscheiden, was läuft.

Basic vs. Pro – welches Modell passt?

Vergleichen Sie die beiden AI Cube Modelle

SIE SIND HIER

AI Cube Basic

Bis zu 5 parallele Nutzer
NVIDIA RTX PRO 4000 Blackwell
24 GB VRAM
Modelle bis 20B Parameter
Ideal für Chatbots & Code-Assistenz

Ab 4.299,90 €

zzgl. MwSt.

ENTERPRISE

AI Cube Pro

Bis zu 20 parallele Nutzer
NVIDIA RTX PRO 6000 Blackwell
96 GB VRAM
Modelle bis 120B+ Parameter
Ideal für große LLMs, RAG & Training

Ab 13.599,90 €

zzgl. MwSt.

Zum Pro-Modell

Praxisbeispiel: Anwaltskanzlei

Wie eine Kanzlei den AI Cube für vertrauliche Recherche nutzt

!Herausforderung

Eine mittelgroße Anwaltskanzlei benötigte eine KI-Lösung für die interne Dokumentenrecherche. Sensible Mandantendaten durften nicht in die Cloud.

✓Lösung mit AI Cube Basic

RAG-System mit Llama 3.1 (13B) für Dokumentensuche
Vollständig lokaler Betrieb im Kanzleinetzwerk
Integration mit Open WebUI für einfache Nutzung

→Ergebnis

80% schnellere Recherche

Vollständige Datenkontrolle

ROI innerhalb von 6 Monaten

Technische Spezifikationen

Grafikkarte	NVIDIA RTX PRO 4000 Blackwell (24 GB GDDR7)
Netzwerk	1 GbE (10 GbE optional)
Abmessungen & Gewicht	292×185×372 mm (H×B×T), ca. 8 kg
Zertifizierung	CE, RoHS, DSGVO-konform
Sicherheit	Secure Boot, TPM 2.0, WireGuard VPN

Im Lieferumfang enthalten

Vorinstallierte Software (Ollama, vLLM, Open WebUI)

Betriebssystem & GPU-Treiber

Setup-Dokumentation

Root-Zugriff & volle Kontrolle

Deutscher Support

Keine laufenden Kosten

Häufig gestellte Fragen zum AI Cube Basic

Bereit für Ihre eigene KI-Infrastruktur?

Lassen Sie sich unverbindlich beraten

Weitere AI Cube Modelle

AI Cube Pro

Für große LLMs und Multi-GPU Workloads

Mehr erfahren

Alle AI Cube Modelle

Übersicht aller verfügbaren Konfigurationen

Zur Übersicht

Blog & Tutorials

Verwalten Sie Ihren Stack im Kunden-Portal

Überwachen Sie Ihre Infrastruktur in Echtzeit, planen Sie Wartungen und erhalten Sie direkten Support – alles in einem zentralen Portal.

Live-Infrastruktur-Status in Echtzeit
Wartungsfenster selbst verschieben
Komplette Zugriffsprotokolle einsehen
Direkter Support ohne Umwege

Portal entdecken

Lassen Sie uns über Ihre Idee sprechen

Ob konkrete IT-Herausforderung oder einfach eine Idee – wir freuen uns auf den Austausch. In einem kurzen Gespräch prüfen wir gemeinsam, ob und wie Ihr Projekt zu WZ-IT passt.

E-Mail

[email protected]

Vertraut von führenden Unternehmen