GPT-OSS 120B auf dem AI Cube Pro: OpenAIs Open-Source-Modell lokal betreiben

Mit GPT-OSS 120B hat OpenAI im August 2025 erstmals seit GPT-2 wieder ein Open-Weight-Modell veröffentlicht – und es ist beeindruckend. Das Modell erreicht nahezu die Performance von OpenAIs o4-mini, läuft aber komplett auf eigener Hardware. In diesem Artikel zeigen wir, wie Sie GPT-OSS 120B auf unserem AI Cube Pro betreiben können.
Was ist GPT-OSS 120B?
GPT-OSS ist OpenAIs Rückkehr zu Open Source. Nach Jahren geschlossener Modelle (GPT-3, GPT-4, o-Series) hat OpenAI zwei Open-Weight-Modelle unter der permissiven Apache 2.0 Lizenz veröffentlicht:
- GPT-OSS 120B: Das große Modell mit 117 Milliarden Parametern
- GPT-OSS 20B: Die kleinere Variante für Edge-Devices
Das Besondere: GPT-OSS nutzt eine Mixture-of-Experts (MoE) Architektur. Von den 117 Milliarden Parametern sind pro Token nur 5,1 Milliarden aktiv. Das macht das Modell extrem effizient – es läuft auf einer einzelnen GPU mit 80+ GB VRAM.
Technische Eckdaten
| Eigenschaft | GPT-OSS 120B |
|---|---|
| Parameter (gesamt) | 117 Milliarden |
| Aktive Parameter | 5,1 Milliarden |
| Architektur | Mixture of Experts (MoE) |
| Kontextlänge | bis zu 128k Token |
| Quantisierung | MXFP4 |
| VRAM-Bedarf | ~80 GB |
| Lizenz | Apache 2.0 |
Warum GPT-OSS 120B auf dem AI Cube Pro?
Unser AI Cube Pro mit der RTX PRO 6000 Blackwell (96 GB VRAM) ist wie gemacht für GPT-OSS 120B. Die 96 GB VRAM bieten genug Headroom für das Modell plus Kontext-Buffer.
Vorteile gegenüber Cloud-APIs
- Keine Token-Kosten: Einmalige Hardware-Investition statt Pay-per-Use
- Volle Datenkontrolle: Ihre Daten verlassen nie das Unternehmensnetzwerk
- DSGVO-Konformität: Keine Datenübertragung an US-Server
- Unbegrenzte Nutzung: Keine Rate-Limits oder Usage-Caps
- Anpassbar: Fine-Tuning auf eigene Use Cases möglich
Performance auf dem AI Cube Pro
Unsere Benchmarks mit GPT-OSS 120B auf dem AI Cube Pro zeigen beeindruckende Ergebnisse:
| Szenario | Durchsatz |
|---|---|
| Einzelner User, kleiner Kontext | ~150 Tokens/s |
| 20 User parallel, kleine Kontexte | ~1.050 Tokens/s gesamt |
| 20 User parallel, gemischte Kontexte | ~300-500 Tokens/s gesamt |
Diese Werte machen den AI Cube Pro ideal für Team-Deployments: Helpdesk-Bots, Code-Review-Assistenten oder interne Wissensdatenbanken mit RAG.
Der vorinstallierte Software-Stack
Jeder AI Cube Pro wird mit einem komplett vorkonfigurierten Stack ausgeliefert:
Inference-Engines
- Ollama: Einfache Modellverwaltung, schneller Einstieg
- vLLM: Maximaler Durchsatz, optimiert für Mehrbenutzer-Szenarien
Web-Interfaces
- Open WebUI: ChatGPT-ähnliche Oberfläche mit Team-Features
- AnythingLLM: Workspace-basiert mit integriertem RAG
Basis-System
- Ubuntu Server LTS
- Optimierte CUDA-Treiber für RTX Blackwell
- Docker für Container-Deployments
- nvidia-smi Exporter für Monitoring
GPT-OSS 120B in der Praxis
Use Case 1: Interner Helpdesk-Bot
Ein mittelständisches Unternehmen nutzt GPT-OSS 120B als First-Level-Support. Das Modell beantwortet Mitarbeiterfragen zu internen Prozessen, IT-Problemen und HR-Themen. Durch RAG-Integration mit der internen Wissensdatenbank liefert es kontextbezogene Antworten – ohne dass sensible Unternehmensdaten die Firewall verlassen.
Use Case 2: Code-Review-Assistent
Ein Entwicklungsteam nutzt GPT-OSS 120B für Code-Reviews. Das Modell analysiert Pull Requests, findet potenzielle Bugs und schlägt Verbesserungen vor. Bei ~150 Tokens/s pro User fühlt sich die Interaktion flüssig an – wie ein erfahrener Senior Developer, der über die Schulter schaut.
Use Case 3: Dokumentenanalyse in der Rechtsabteilung
Eine Anwaltskanzlei durchsucht mit GPT-OSS 120B tausende Seiten Vertragsdokumente. Die 128k Token Kontextlänge ermöglicht die Analyse ganzer Verträge in einem Durchgang. Mandantendaten bleiben dabei on-premise – ein Muss für die anwaltliche Schweigepflicht.
Erste Schritte mit GPT-OSS 120B
Nach Auslieferung des AI Cube Pro ist der Start denkbar einfach:
- Anschließen: Strom und Netzwerk verbinden
- Einschalten: Das System bootet mit vorkonfiguriertem Stack
- Modell laden: GPT-OSS 120B über Ollama oder vLLM herunterladen
- Loslegen: Über Open WebUI oder AnythingLLM mit dem Modell interagieren
Optional konfigurieren wir vor Auslieferung:
- SSO-Integration (LDAP, SAML, OAuth)
- Prometheus/Grafana Monitoring
- RAG-Pipelines mit Ihren Datenquellen
- Backup-Strategien
Fazit
GPT-OSS 120B ist ein Meilenstein: OpenAIs erstes echtes Open-Source-Modell seit Jahren, mit Performance auf o4-mini-Niveau. Auf dem AI Cube Pro läuft es stabil, schnell und – am wichtigsten – komplett unter Ihrer Kontrolle.
Keine Cloud-Abhängigkeit. Keine Token-Kosten. Keine Datenschutz-Bedenken.
Interesse? Vereinbaren Sie ein Beratungsgespräch oder werfen Sie einen Blick auf unsere AI Cube Modelle.
Weiterführende Artikel:
Lassen Sie uns über Ihre Idee sprechen
Ob konkrete IT-Herausforderung oder einfach eine Idee – wir freuen uns auf den Austausch. In einem kurzen Gespräch prüfen wir gemeinsam, ob und wie Ihr Projekt zu WZ-IT passt.



