WZ-IT Logo

GPT-OSS 120B auf dem AI Cube Pro: OpenAIs Open-Source-Modell lokal betreiben

Timo Wevelsiep
Timo Wevelsiep
#AI #OpenAI #GPTOSS #SelfHosting #LokaleKI #GPU #AIServer #OnPremise #OpenSource

Mit GPT-OSS 120B hat OpenAI im August 2025 erstmals seit GPT-2 wieder ein Open-Weight-Modell veröffentlicht – und es ist beeindruckend. Das Modell erreicht nahezu die Performance von OpenAIs o4-mini, läuft aber komplett auf eigener Hardware. In diesem Artikel zeigen wir, wie Sie GPT-OSS 120B auf unserem AI Cube Pro betreiben können.

Was ist GPT-OSS 120B?

GPT-OSS ist OpenAIs Rückkehr zu Open Source. Nach Jahren geschlossener Modelle (GPT-3, GPT-4, o-Series) hat OpenAI zwei Open-Weight-Modelle unter der permissiven Apache 2.0 Lizenz veröffentlicht:

  • GPT-OSS 120B: Das große Modell mit 117 Milliarden Parametern
  • GPT-OSS 20B: Die kleinere Variante für Edge-Devices

Das Besondere: GPT-OSS nutzt eine Mixture-of-Experts (MoE) Architektur. Von den 117 Milliarden Parametern sind pro Token nur 5,1 Milliarden aktiv. Das macht das Modell extrem effizient – es läuft auf einer einzelnen GPU mit 80+ GB VRAM.

Technische Eckdaten

Eigenschaft GPT-OSS 120B
Parameter (gesamt) 117 Milliarden
Aktive Parameter 5,1 Milliarden
Architektur Mixture of Experts (MoE)
Kontextlänge bis zu 128k Token
Quantisierung MXFP4
VRAM-Bedarf ~80 GB
Lizenz Apache 2.0

Warum GPT-OSS 120B auf dem AI Cube Pro?

Unser AI Cube Pro mit der RTX PRO 6000 Blackwell (96 GB VRAM) ist wie gemacht für GPT-OSS 120B. Die 96 GB VRAM bieten genug Headroom für das Modell plus Kontext-Buffer.

Vorteile gegenüber Cloud-APIs

  1. Keine Token-Kosten: Einmalige Hardware-Investition statt Pay-per-Use
  2. Volle Datenkontrolle: Ihre Daten verlassen nie das Unternehmensnetzwerk
  3. DSGVO-Konformität: Keine Datenübertragung an US-Server
  4. Unbegrenzte Nutzung: Keine Rate-Limits oder Usage-Caps
  5. Anpassbar: Fine-Tuning auf eigene Use Cases möglich

Performance auf dem AI Cube Pro

Unsere Benchmarks mit GPT-OSS 120B auf dem AI Cube Pro zeigen beeindruckende Ergebnisse:

Szenario Durchsatz
Einzelner User, kleiner Kontext ~150 Tokens/s
20 User parallel, kleine Kontexte ~1.050 Tokens/s gesamt
20 User parallel, gemischte Kontexte ~300-500 Tokens/s gesamt

Diese Werte machen den AI Cube Pro ideal für Team-Deployments: Helpdesk-Bots, Code-Review-Assistenten oder interne Wissensdatenbanken mit RAG.

Der vorinstallierte Software-Stack

Jeder AI Cube Pro wird mit einem komplett vorkonfigurierten Stack ausgeliefert:

Inference-Engines

  • Ollama: Einfache Modellverwaltung, schneller Einstieg
  • vLLM: Maximaler Durchsatz, optimiert für Mehrbenutzer-Szenarien

Web-Interfaces

  • Open WebUI: ChatGPT-ähnliche Oberfläche mit Team-Features
  • AnythingLLM: Workspace-basiert mit integriertem RAG

Basis-System

  • Ubuntu Server LTS
  • Optimierte CUDA-Treiber für RTX Blackwell
  • Docker für Container-Deployments
  • nvidia-smi Exporter für Monitoring

GPT-OSS 120B in der Praxis

Use Case 1: Interner Helpdesk-Bot

Ein mittelständisches Unternehmen nutzt GPT-OSS 120B als First-Level-Support. Das Modell beantwortet Mitarbeiterfragen zu internen Prozessen, IT-Problemen und HR-Themen. Durch RAG-Integration mit der internen Wissensdatenbank liefert es kontextbezogene Antworten – ohne dass sensible Unternehmensdaten die Firewall verlassen.

Use Case 2: Code-Review-Assistent

Ein Entwicklungsteam nutzt GPT-OSS 120B für Code-Reviews. Das Modell analysiert Pull Requests, findet potenzielle Bugs und schlägt Verbesserungen vor. Bei ~150 Tokens/s pro User fühlt sich die Interaktion flüssig an – wie ein erfahrener Senior Developer, der über die Schulter schaut.

Use Case 3: Dokumentenanalyse in der Rechtsabteilung

Eine Anwaltskanzlei durchsucht mit GPT-OSS 120B tausende Seiten Vertragsdokumente. Die 128k Token Kontextlänge ermöglicht die Analyse ganzer Verträge in einem Durchgang. Mandantendaten bleiben dabei on-premise – ein Muss für die anwaltliche Schweigepflicht.

Erste Schritte mit GPT-OSS 120B

Nach Auslieferung des AI Cube Pro ist der Start denkbar einfach:

  1. Anschließen: Strom und Netzwerk verbinden
  2. Einschalten: Das System bootet mit vorkonfiguriertem Stack
  3. Modell laden: GPT-OSS 120B über Ollama oder vLLM herunterladen
  4. Loslegen: Über Open WebUI oder AnythingLLM mit dem Modell interagieren

Optional konfigurieren wir vor Auslieferung:

  • SSO-Integration (LDAP, SAML, OAuth)
  • Prometheus/Grafana Monitoring
  • RAG-Pipelines mit Ihren Datenquellen
  • Backup-Strategien

Fazit

GPT-OSS 120B ist ein Meilenstein: OpenAIs erstes echtes Open-Source-Modell seit Jahren, mit Performance auf o4-mini-Niveau. Auf dem AI Cube Pro läuft es stabil, schnell und – am wichtigsten – komplett unter Ihrer Kontrolle.

Keine Cloud-Abhängigkeit. Keine Token-Kosten. Keine Datenschutz-Bedenken.

Interesse? Vereinbaren Sie ein Beratungsgespräch oder werfen Sie einen Blick auf unsere AI Cube Modelle.


Weiterführende Artikel:

Lassen Sie uns über Ihre Idee sprechen

Ob konkrete IT-Herausforderung oder einfach eine Idee – wir freuen uns auf den Austausch. In einem kurzen Gespräch prüfen wir gemeinsam, ob und wie Ihr Projekt zu WZ-IT passt.

Vertraut von führenden Unternehmen

  • Keymate
  • SolidProof
  • Rekorder
  • Führerscheinmacher
  • ARGE
  • NextGym
  • Paritel
  • EVADXB
  • Boese VA
  • Maho Management
  • Aphy
  • Negosh
  • Millenium
  • Yonju
  • Mr. Clipart
1/3 – Themenauswahl33%

Worum geht es bei Ihrer Anfrage?

Wählen Sie einen oder mehrere Bereiche, bei denen wir Sie unterstützen dürfen.