GPT-OSS 120B auf dem AI Cube Pro: OpenAIs Open-Source-Modell lokal betreiben

Hinweis zum Inhalt: Die Informationen in diesem Artikel wurden nach bestem Wissen zum Zeitpunkt der Veröffentlichung zusammengestellt. Technische Details, Preise, Versionen, Lizenzmodelle und externe Inhalte können sich ändern. Bitte prüfen Sie die genannten Angaben eigenständig, insbesondere vor geschäftskritischen oder sicherheitsrelevanten Entscheidungen. Dieser Artikel ersetzt keine individuelle Fach-, Rechts- oder Steuerberatung.

Mit GPT-OSS 120B hat OpenAI im August 2025 erstmals seit GPT-2 wieder ein Open-Weight-Modell veröffentlicht – und es ist beeindruckend. Das Modell erreicht nahezu die Performance von OpenAIs o4-mini, läuft aber komplett auf eigener Hardware. In diesem Artikel zeigen wir, wie Sie GPT-OSS 120B auf unserem AI Cube Pro betreiben können.
Was ist GPT-OSS 120B?
GPT-OSS ist OpenAIs Rückkehr zu Open Source. Nach Jahren geschlossener Modelle (GPT-3, GPT-4, o-Series) hat OpenAI zwei Open-Weight-Modelle unter der permissiven Apache 2.0 Lizenz veröffentlicht:
- GPT-OSS 120B: Das große Modell mit 117 Milliarden Parametern
- GPT-OSS 20B: Die kleinere Variante für Edge-Devices
Das Besondere: GPT-OSS nutzt eine Mixture-of-Experts (MoE) Architektur. Von den 117 Milliarden Parametern sind pro Token nur 5,1 Milliarden aktiv. Das macht das Modell extrem effizient – es läuft auf einer einzelnen GPU mit 80+ GB VRAM.
Technische Eckdaten
| Eigenschaft | GPT-OSS 120B |
|---|---|
| Parameter (gesamt) | 117 Milliarden |
| Aktive Parameter | 5,1 Milliarden |
| Architektur | Mixture of Experts (MoE) |
| Kontextlänge | bis zu 128k Token |
| Quantisierung | MXFP4 |
| VRAM-Bedarf | ~80 GB |
| Lizenz | Apache 2.0 |
Warum GPT-OSS 120B auf dem AI Cube Pro?
Unser AI Cube Pro mit der RTX PRO 6000 Blackwell (96 GB VRAM) ist wie gemacht für GPT-OSS 120B. Die 96 GB VRAM bieten genug Headroom für das Modell plus Kontext-Buffer.
Vorteile gegenüber Cloud-APIs
- Keine Token-Kosten: Einmalige Hardware-Investition statt Pay-per-Use
- Volle Datenkontrolle: Ihre Daten verlassen nie das Unternehmensnetzwerk
- DSGVO-Konformität: Keine Datenübertragung an US-Server
- Unbegrenzte Nutzung: Keine Rate-Limits oder Usage-Caps
- Anpassbar: Fine-Tuning auf eigene Use Cases möglich
Performance auf dem AI Cube Pro
Unsere Benchmarks mit GPT-OSS 120B auf dem AI Cube Pro zeigen beeindruckende Ergebnisse:
| Szenario | Durchsatz |
|---|---|
| Einzelner User, kleiner Kontext | ~150 Tokens/s |
| 20 User parallel, kleine Kontexte | ~1.050 Tokens/s gesamt |
| 20 User parallel, gemischte Kontexte | ~300-500 Tokens/s gesamt |
Diese Werte machen den AI Cube Pro ideal für Team-Deployments: Helpdesk-Bots, Code-Review-Assistenten oder interne Wissensdatenbanken mit RAG.
Der vorinstallierte Software-Stack
Jeder AI Cube Pro wird mit einem komplett vorkonfigurierten Stack ausgeliefert:
Inference-Engines
- Ollama: Einfache Modellverwaltung, schneller Einstieg
- vLLM: Maximaler Durchsatz, optimiert für Mehrbenutzer-Szenarien
Web-Interfaces
- Open WebUI: ChatGPT-ähnliche Oberfläche mit Team-Features
- AnythingLLM: Workspace-basiert mit integriertem RAG
Basis-System
- Ubuntu Server LTS
- Optimierte CUDA-Treiber für RTX Blackwell
- Docker für Container-Deployments
- nvidia-smi Exporter für Monitoring
GPT-OSS 120B in der Praxis
Use Case 1: Interner Helpdesk-Bot
Ein mittelständisches Unternehmen nutzt GPT-OSS 120B als First-Level-Support. Das Modell beantwortet Mitarbeiterfragen zu internen Prozessen, IT-Problemen und HR-Themen. Durch RAG-Integration mit der internen Wissensdatenbank liefert es kontextbezogene Antworten – ohne dass sensible Unternehmensdaten die Firewall verlassen.
Use Case 2: Code-Review-Assistent
Ein Entwicklungsteam nutzt GPT-OSS 120B für Code-Reviews. Das Modell analysiert Pull Requests, findet potenzielle Bugs und schlägt Verbesserungen vor. Bei ~150 Tokens/s pro User fühlt sich die Interaktion flüssig an – wie ein erfahrener Senior Developer, der über die Schulter schaut.
Use Case 3: Dokumentenanalyse in der Rechtsabteilung
Eine Anwaltskanzlei durchsucht mit GPT-OSS 120B tausende Seiten Vertragsdokumente. Die 128k Token Kontextlänge ermöglicht die Analyse ganzer Verträge in einem Durchgang. Mandantendaten bleiben dabei on-premise – ein Muss für die anwaltliche Schweigepflicht.
Erste Schritte mit GPT-OSS 120B
Nach Auslieferung des AI Cube Pro ist der Start denkbar einfach:
- Anschließen: Strom und Netzwerk verbinden
- Einschalten: Das System bootet mit vorkonfiguriertem Stack
- Modell laden: GPT-OSS 120B über Ollama oder vLLM herunterladen
- Loslegen: Über Open WebUI oder AnythingLLM mit dem Modell interagieren
Optional konfigurieren wir vor Auslieferung:
- SSO-Integration (LDAP, SAML, OAuth)
- Prometheus/Grafana Monitoring
- RAG-Pipelines mit Ihren Datenquellen
- Backup-Strategien
Fazit
GPT-OSS 120B ist ein Meilenstein: OpenAIs erstes echtes Open-Source-Modell seit Jahren, mit Performance auf o4-mini-Niveau. Auf dem AI Cube Pro läuft es stabil, schnell und – am wichtigsten – komplett unter Ihrer Kontrolle.
Keine Cloud-Abhängigkeit. Keine Token-Kosten. Keine Datenschutz-Bedenken.
Interesse? Vereinbaren Sie ein Beratungsgespräch oder werfen Sie einen Blick auf unsere AI Cube Modelle.
Weiterführende Artikel:

Geschrieben von
Timo Wevelsiep
Co-Founder & CEO
Co-Founder von WZ-IT. Spezialisiert auf Cloud-Infrastruktur, Open-Source-Plattformen und Managed Services für KMUs und Enterprise-Kunden weltweit.
LinkedInLassen Sie uns über Ihre Idee sprechen
Ob konkrete IT-Herausforderung oder einfach eine Idee – wir freuen uns auf den Austausch. In einem kurzen Gespräch prüfen wir gemeinsam, ob und wie Ihr Projekt zu WZ-IT passt.


Timo Wevelsiep & Robin Zins
Geschäftsführer




