GPT-OSS 120B auf dem AI Cube Pro: OpenAIs Open-Source-Modell lokal betreiben

Mit GPT-OSS 120B hat OpenAI im August 2025 erstmals seit GPT-2 wieder ein Open-Weight-Modell veröffentlicht – und es ist beeindruckend. Das Modell erreicht nahezu die Performance von OpenAIs o4-mini, läuft aber komplett auf eigener Hardware. In diesem Artikel zeigen wir, wie Sie GPT-OSS 120B auf unserem AI Cube Pro betreiben können.

Was ist GPT-OSS 120B?

GPT-OSS ist OpenAIs Rückkehr zu Open Source. Nach Jahren geschlossener Modelle (GPT-3, GPT-4, o-Series) hat OpenAI zwei Open-Weight-Modelle unter der permissiven Apache 2.0 Lizenz veröffentlicht:

GPT-OSS 120B: Das große Modell mit 117 Milliarden Parametern
GPT-OSS 20B: Die kleinere Variante für Edge-Devices

Das Besondere: GPT-OSS nutzt eine Mixture-of-Experts (MoE) Architektur. Von den 117 Milliarden Parametern sind pro Token nur 5,1 Milliarden aktiv. Das macht das Modell extrem effizient – es läuft auf einer einzelnen GPU mit 80+ GB VRAM.

Technische Eckdaten

Eigenschaft	GPT-OSS 120B
Parameter (gesamt)	117 Milliarden
Aktive Parameter	5,1 Milliarden
Architektur	Mixture of Experts (MoE)
Kontextlänge	bis zu 128k Token
Quantisierung	MXFP4
VRAM-Bedarf	~80 GB
Lizenz	Apache 2.0

Warum GPT-OSS 120B auf dem AI Cube Pro?

Unser AI Cube Pro mit der RTX PRO 6000 Blackwell (96 GB VRAM) ist wie gemacht für GPT-OSS 120B. Die 96 GB VRAM bieten genug Headroom für das Modell plus Kontext-Buffer.

Vorteile gegenüber Cloud-APIs

Keine Token-Kosten: Einmalige Hardware-Investition statt Pay-per-Use
Volle Datenkontrolle: Ihre Daten verlassen nie das Unternehmensnetzwerk
DSGVO-Konformität: Keine Datenübertragung an US-Server
Unbegrenzte Nutzung: Keine Rate-Limits oder Usage-Caps
Anpassbar: Fine-Tuning auf eigene Use Cases möglich

Performance auf dem AI Cube Pro

Unsere Benchmarks mit GPT-OSS 120B auf dem AI Cube Pro zeigen beeindruckende Ergebnisse:

Szenario	Durchsatz
Einzelner User, kleiner Kontext	~150 Tokens/s
20 User parallel, kleine Kontexte	~1.050 Tokens/s gesamt
20 User parallel, gemischte Kontexte	~300-500 Tokens/s gesamt

Diese Werte machen den AI Cube Pro ideal für Team-Deployments: Helpdesk-Bots, Code-Review-Assistenten oder interne Wissensdatenbanken mit RAG.

Der vorinstallierte Software-Stack

Jeder AI Cube Pro wird mit einem komplett vorkonfigurierten Stack ausgeliefert:

Inference-Engines

Ollama: Einfache Modellverwaltung, schneller Einstieg
vLLM: Maximaler Durchsatz, optimiert für Mehrbenutzer-Szenarien

Web-Interfaces

Open WebUI: ChatGPT-ähnliche Oberfläche mit Team-Features
AnythingLLM: Workspace-basiert mit integriertem RAG

Basis-System

Ubuntu Server LTS
Optimierte CUDA-Treiber für RTX Blackwell
Docker für Container-Deployments
nvidia-smi Exporter für Monitoring

GPT-OSS 120B in der Praxis

Use Case 1: Interner Helpdesk-Bot

Ein mittelständisches Unternehmen nutzt GPT-OSS 120B als First-Level-Support. Das Modell beantwortet Mitarbeiterfragen zu internen Prozessen, IT-Problemen und HR-Themen. Durch RAG-Integration mit der internen Wissensdatenbank liefert es kontextbezogene Antworten – ohne dass sensible Unternehmensdaten die Firewall verlassen.

Use Case 2: Code-Review-Assistent

Ein Entwicklungsteam nutzt GPT-OSS 120B für Code-Reviews. Das Modell analysiert Pull Requests, findet potenzielle Bugs und schlägt Verbesserungen vor. Bei ~150 Tokens/s pro User fühlt sich die Interaktion flüssig an – wie ein erfahrener Senior Developer, der über die Schulter schaut.

Use Case 3: Dokumentenanalyse in der Rechtsabteilung

Eine Anwaltskanzlei durchsucht mit GPT-OSS 120B tausende Seiten Vertragsdokumente. Die 128k Token Kontextlänge ermöglicht die Analyse ganzer Verträge in einem Durchgang. Mandantendaten bleiben dabei on-premise – ein Muss für die anwaltliche Schweigepflicht.

Erste Schritte mit GPT-OSS 120B

Nach Auslieferung des AI Cube Pro ist der Start denkbar einfach:

Anschließen: Strom und Netzwerk verbinden
Einschalten: Das System bootet mit vorkonfiguriertem Stack
Modell laden: GPT-OSS 120B über Ollama oder vLLM herunterladen
Loslegen: Über Open WebUI oder AnythingLLM mit dem Modell interagieren

Optional konfigurieren wir vor Auslieferung:

SSO-Integration (LDAP, SAML, OAuth)
Prometheus/Grafana Monitoring
RAG-Pipelines mit Ihren Datenquellen
Backup-Strategien

Fazit

GPT-OSS 120B ist ein Meilenstein: OpenAIs erstes echtes Open-Source-Modell seit Jahren, mit Performance auf o4-mini-Niveau. Auf dem AI Cube Pro läuft es stabil, schnell und – am wichtigsten – komplett unter Ihrer Kontrolle.

Keine Cloud-Abhängigkeit. Keine Token-Kosten. Keine Datenschutz-Bedenken.

Interesse? Vereinbaren Sie ein Beratungsgespräch oder werfen Sie einen Blick auf unsere AI Cube Modelle.

Weiterführende Artikel:

GPT-OSS 120B auf dem AI Cube Pro: OpenAIs Open-Source-Modell lokal betreiben

Was ist GPT-OSS 120B?

Technische Eckdaten

Warum GPT-OSS 120B auf dem AI Cube Pro?

Vorteile gegenüber Cloud-APIs

Performance auf dem AI Cube Pro

Der vorinstallierte Software-Stack

Inference-Engines

Web-Interfaces

Basis-System

GPT-OSS 120B in der Praxis

Use Case 1: Interner Helpdesk-Bot

Use Case 2: Code-Review-Assistent

Use Case 3: Dokumentenanalyse in der Rechtsabteilung

Erste Schritte mit GPT-OSS 120B

Fazit

Weitere Einblicke

Lassen Sie uns über Ihre Idee sprechen

Worum geht es bei Ihrer Anfrage?

Cloud & Infrastruktur (Hosting, Setup & Migration)

Individuelle Softwareentwicklung

KI & LLM-Lösungen (inkl. AI-Server)

IT-Sicherheit & Identitätsmanagement

IT-Beratung & Strategie

Etwas anderes