WZ-IT Logo

GPT-OSS 120B auf dem AI Cube Pro: OpenAIs Open-Source-Modell lokal betreiben

Timo Wevelsiep
Timo Wevelsiep
#AI #OpenAI #GPTOSS #SelfHosting #LokaleKI #GPU #AIServer #OnPremise #OpenSource

Hinweis zum Inhalt: Die Informationen in diesem Artikel wurden nach bestem Wissen zum Zeitpunkt der Veröffentlichung zusammengestellt. Technische Details, Preise, Versionen, Lizenzmodelle und externe Inhalte können sich ändern. Bitte prüfen Sie die genannten Angaben eigenständig, insbesondere vor geschäftskritischen oder sicherheitsrelevanten Entscheidungen. Dieser Artikel ersetzt keine individuelle Fach-, Rechts- oder Steuerberatung.

GPT-OSS 120B auf dem AI Cube Pro: OpenAIs Open-Source-Modell lokal betreiben

Mit GPT-OSS 120B hat OpenAI im August 2025 erstmals seit GPT-2 wieder ein Open-Weight-Modell veröffentlicht – und es ist beeindruckend. Das Modell erreicht nahezu die Performance von OpenAIs o4-mini, läuft aber komplett auf eigener Hardware. In diesem Artikel zeigen wir, wie Sie GPT-OSS 120B auf unserem AI Cube Pro betreiben können.

Was ist GPT-OSS 120B?

GPT-OSS ist OpenAIs Rückkehr zu Open Source. Nach Jahren geschlossener Modelle (GPT-3, GPT-4, o-Series) hat OpenAI zwei Open-Weight-Modelle unter der permissiven Apache 2.0 Lizenz veröffentlicht:

  • GPT-OSS 120B: Das große Modell mit 117 Milliarden Parametern
  • GPT-OSS 20B: Die kleinere Variante für Edge-Devices

Das Besondere: GPT-OSS nutzt eine Mixture-of-Experts (MoE) Architektur. Von den 117 Milliarden Parametern sind pro Token nur 5,1 Milliarden aktiv. Das macht das Modell extrem effizient – es läuft auf einer einzelnen GPU mit 80+ GB VRAM.

Technische Eckdaten

Eigenschaft GPT-OSS 120B
Parameter (gesamt) 117 Milliarden
Aktive Parameter 5,1 Milliarden
Architektur Mixture of Experts (MoE)
Kontextlänge bis zu 128k Token
Quantisierung MXFP4
VRAM-Bedarf ~80 GB
Lizenz Apache 2.0

Warum GPT-OSS 120B auf dem AI Cube Pro?

Unser AI Cube Pro mit der RTX PRO 6000 Blackwell (96 GB VRAM) ist wie gemacht für GPT-OSS 120B. Die 96 GB VRAM bieten genug Headroom für das Modell plus Kontext-Buffer.

Vorteile gegenüber Cloud-APIs

  1. Keine Token-Kosten: Einmalige Hardware-Investition statt Pay-per-Use
  2. Volle Datenkontrolle: Ihre Daten verlassen nie das Unternehmensnetzwerk
  3. DSGVO-Konformität: Keine Datenübertragung an US-Server
  4. Unbegrenzte Nutzung: Keine Rate-Limits oder Usage-Caps
  5. Anpassbar: Fine-Tuning auf eigene Use Cases möglich

Performance auf dem AI Cube Pro

Unsere Benchmarks mit GPT-OSS 120B auf dem AI Cube Pro zeigen beeindruckende Ergebnisse:

Szenario Durchsatz
Einzelner User, kleiner Kontext ~150 Tokens/s
20 User parallel, kleine Kontexte ~1.050 Tokens/s gesamt
20 User parallel, gemischte Kontexte ~300-500 Tokens/s gesamt

Diese Werte machen den AI Cube Pro ideal für Team-Deployments: Helpdesk-Bots, Code-Review-Assistenten oder interne Wissensdatenbanken mit RAG.

Der vorinstallierte Software-Stack

Jeder AI Cube Pro wird mit einem komplett vorkonfigurierten Stack ausgeliefert:

Inference-Engines

  • Ollama: Einfache Modellverwaltung, schneller Einstieg
  • vLLM: Maximaler Durchsatz, optimiert für Mehrbenutzer-Szenarien

Web-Interfaces

  • Open WebUI: ChatGPT-ähnliche Oberfläche mit Team-Features
  • AnythingLLM: Workspace-basiert mit integriertem RAG

Basis-System

  • Ubuntu Server LTS
  • Optimierte CUDA-Treiber für RTX Blackwell
  • Docker für Container-Deployments
  • nvidia-smi Exporter für Monitoring

GPT-OSS 120B in der Praxis

Use Case 1: Interner Helpdesk-Bot

Ein mittelständisches Unternehmen nutzt GPT-OSS 120B als First-Level-Support. Das Modell beantwortet Mitarbeiterfragen zu internen Prozessen, IT-Problemen und HR-Themen. Durch RAG-Integration mit der internen Wissensdatenbank liefert es kontextbezogene Antworten – ohne dass sensible Unternehmensdaten die Firewall verlassen.

Use Case 2: Code-Review-Assistent

Ein Entwicklungsteam nutzt GPT-OSS 120B für Code-Reviews. Das Modell analysiert Pull Requests, findet potenzielle Bugs und schlägt Verbesserungen vor. Bei ~150 Tokens/s pro User fühlt sich die Interaktion flüssig an – wie ein erfahrener Senior Developer, der über die Schulter schaut.

Use Case 3: Dokumentenanalyse in der Rechtsabteilung

Eine Anwaltskanzlei durchsucht mit GPT-OSS 120B tausende Seiten Vertragsdokumente. Die 128k Token Kontextlänge ermöglicht die Analyse ganzer Verträge in einem Durchgang. Mandantendaten bleiben dabei on-premise – ein Muss für die anwaltliche Schweigepflicht.

Erste Schritte mit GPT-OSS 120B

Nach Auslieferung des AI Cube Pro ist der Start denkbar einfach:

  1. Anschließen: Strom und Netzwerk verbinden
  2. Einschalten: Das System bootet mit vorkonfiguriertem Stack
  3. Modell laden: GPT-OSS 120B über Ollama oder vLLM herunterladen
  4. Loslegen: Über Open WebUI oder AnythingLLM mit dem Modell interagieren

Optional konfigurieren wir vor Auslieferung:

  • SSO-Integration (LDAP, SAML, OAuth)
  • Prometheus/Grafana Monitoring
  • RAG-Pipelines mit Ihren Datenquellen
  • Backup-Strategien

Fazit

GPT-OSS 120B ist ein Meilenstein: OpenAIs erstes echtes Open-Source-Modell seit Jahren, mit Performance auf o4-mini-Niveau. Auf dem AI Cube Pro läuft es stabil, schnell und – am wichtigsten – komplett unter Ihrer Kontrolle.

Keine Cloud-Abhängigkeit. Keine Token-Kosten. Keine Datenschutz-Bedenken.

Interesse? Vereinbaren Sie ein Beratungsgespräch oder werfen Sie einen Blick auf unsere AI Cube Modelle.


Weiterführende Artikel:

Timo Wevelsiep

Geschrieben von

Timo Wevelsiep

Co-Founder & CEO

Co-Founder von WZ-IT. Spezialisiert auf Cloud-Infrastruktur, Open-Source-Plattformen und Managed Services für KMUs und Enterprise-Kunden weltweit.

LinkedIn

Lassen Sie uns über Ihre Idee sprechen

Ob konkrete IT-Herausforderung oder einfach eine Idee – wir freuen uns auf den Austausch. In einem kurzen Gespräch prüfen wir gemeinsam, ob und wie Ihr Projekt zu WZ-IT passt.

E-Mail
[email protected]

Vertraut von führenden Unternehmen

  • Rekorder
  • Keymate
  • Führerscheinmacher
  • SolidProof
  • ARGE
  • Boese VA
  • NextGym
  • Maho Management
  • Golem.de
  • Millenium
  • Paritel
  • Yonju
  • EVADXB
  • Mr. Clipart
  • Aphy
  • Negosh
  • ABCO Water
Timo Wevelsiep & Robin Zins - CEOs of WZ-IT

Timo Wevelsiep & Robin Zins

Geschäftsführer

1/3 – Themenauswahl33%

Worum geht es bei Ihrer Anfrage?

Wählen Sie einen oder mehrere Bereiche, bei denen wir Sie unterstützen dürfen.