Bleeding Llama (CVE-2026-7482): Warum selbst gehostete KI nicht automatisch sichere KI ist

Hinweis zum Inhalt: Die Informationen in diesem Artikel wurden nach bestem Wissen zum Zeitpunkt der Veröffentlichung zusammengestellt. Technische Details, Preise, Versionen, Lizenzmodelle und externe Inhalte können sich ändern. Bitte prüfen Sie die genannten Angaben eigenständig, insbesondere vor geschäftskritischen oder sicherheitsrelevanten Entscheidungen. Dieser Artikel ersetzt keine individuelle Fach-, Rechts- oder Steuerberatung.

Lokale KI sicher betreiben — als Managed Service — WZ-IT übernimmt Ollama, OpenWebUI und Co. mit Auth-Proxy, Network-Segmentation und CVE-Monitoring als Standard. Patches in Stunden statt Monaten, dokumentiert NIS2-konform. Erstgespräch buchen · Mehr zum CVE-Monitoring · Open WebUI Hosting
Drei unauthentifizierte API-Calls. Kein Login, kein Exploit-Framework, keine Privilege Escalation. Drei POST-Requests an einen Standard-Port, und der Speicher der Maschine ist auf Reisen — mit System-Prompts, parallelen Chat-Sessions, API-Keys und Datenbank-Credentials. Geschätzte 300.000 Ollama-Instanzen weltweit erreichbar, 8,9 Prozent davon in Deutschland: drittgrößter Standort weltweit für exponierte Ollama-Server.
CVE-2026-7482 — von den Entdeckern auf den Namen "Bleeding Llama" getauft — ist eine kritische Memory-Leak-Schwachstelle (CVSS 9.1) im GGUF-Modell-Loader von Ollama. Der Patch ist seit Februar 2026 verfügbar. Die offizielle CVE-Vergabe und damit die Sichtbarkeit in Vulnerability-Scannern? Erst seit dem 1. Mai. Drei Monate zwischen Patch und Bekanntwerden — und eine Mehrheit der Operatoren wusste nichts davon.
Dieser Beitrag ordnet ein, was passiert ist, wer betroffen ist, was sofort zu tun ist und welche Architektur-Lehren für jeden gelten, der lokale KI als Souveränitäts-Argument verkauft. Die zentrale These: Self-Hosting ist das richtige Pferd für DSGVO und EU AI Act — aber nur, wenn der Betrieb dahinter stimmt. Sonst kippt der Souveränitäts-Vorteil in ein Sicherheits-Risiko.
Inhaltsverzeichnis
- Was ist Bleeding Llama
- Wie der Angriff funktioniert
- Warum rund 300.000 Server exponiert sind
- Was der Vorfall über die Reife des AI-Ökosystems verrät
- Wer in Ihrer Organisation ist gefährdet
- Sofortmaßnahmen für IT-Leads
- Hardening-Posture für produktive Ollama-Deployments
- Die Lehre für Entscheider
- Unser Vorgehen bei WZ-IT
- Weiterführende Guides
Was ist Bleeding Llama
- CVE-ID: CVE-2026-7482
- Schwere: CVSS 9.1 (kritisch)
- Klasse: Heap Out-of-Bounds Read im GGUF-Modell-Loader
- Authentifizierung: keine erforderlich
- Komplexität: drei API-Calls
- Betroffene Versionen: alle Ollama-Versionen vor 0.17.1
- Patch-Auslieferung: 25. Februar 2026 (Ollama 0.17.1)
- CVE-Veröffentlichung: 1. Mai 2026 (Echo CNA, nach drei Monaten Funkstille bei MITRE)
- Entdecker: Dor Attias / Cyera Research
Im Kern ist Bleeding Llama ein Speicher-Lese-Fehler. Eine manipulierte GGUF-Datei deklariert eine Tensor-Größe, die deutlich über dem tatsächlichen Inhalt liegt. Beim Verarbeiten dieser Datei liest der Ollama-Server in fs/ggml/gguf.go und server/quantization.go über den allokierten Heap-Buffer hinaus — und gibt das Gelesene als Teil des "konvertierten" Modells wieder aus. Was im Heap an benachbarten Speicherbereichen herumliegt, landet so im Modell-Artefakt. Dann reicht ein POST /api/push an eine vom Angreifer kontrollierte Registry, und die Daten verlassen den Server.
Drei Eigenschaften machen die Lücke besonders unangenehm:
- Keine Authentifizierung. Ollama hat per Default keinen Login. Wer den Port erreichen kann, kann angreifen.
- Keine sichtbaren Spuren. Kein Crash, kein Stacktrace, keine fehlgeschlagene Anfrage in den Logs. Nur dediziertes Endpoint-Monitoring auf
/api/createund/api/pushwürde den Angriff im Live-Betrieb auffallen lassen. - Direkt-Exfiltration. Der Heap-Inhalt geht nicht über einen Umweg, sondern wird direkt in das hochgeladene Modell-Artefakt geschrieben und an einen externen Endpunkt geschickt. Drei Calls, fertig.
Wie der Angriff funktioniert
Der Exploit besteht aus drei Schritten und ist mit handelsüblichem curl reproduzierbar.
Schritt 1 — Manipulierte GGUF-Datei hochladen. Der Angreifer baut eine GGUF-Datei, deren Tensor-Header eine Größe deklariert, die größer ist als der tatsächliche Datenblock. Hochgeladen wird sie via POST /api/blobs/sha256:<digest>. Ollama akzeptiert den Upload ohne Inhaltsprüfung — der Hash stimmt mit dem deklarierten Hash überein, das Format wird erst beim Verarbeiten interpretiert.
Schritt 2 — Konvertierung triggern. Ein POST /api/create mit der zuvor hochgeladenen Datei als Basis weist Ollama an, daraus ein neues Modell zu konvertieren oder zu quantisieren. Genau hier triggert der Out-of-Bounds-Read: Der Server liest entlang der falsch deklarierten Tensor-Größe, geht über den allokierten Buffer hinaus und packt benachbarte Heap-Daten in das Output-Modell.
Schritt 3 — Exfiltration via Push. Ein POST /api/push mit dem konvertierten Modell und einer Ziel-Registry wie registry.attacker.com/leaked-model versendet das Artefakt. Inklusive der vermeintlichen Modell-Daten — die in Wahrheit der ausgeleiteten Heap-Inhalt sind. Der Angreifer lädt sich anschließend sein eigenes Modell von der eigenen Registry herunter und seziert die Heap-Daten daraus.
Was im Heap typischerweise herumliegt:
- System-Prompts der laufenden Modelle (Unternehmens-Know-how, Tone-of-Voice-Anweisungen, Safety-Guardrails)
- Parallele Chat-Sessions anderer Nutzer (User-Prompts, Modell-Antworten, Konversationshistorie)
- Environment-Variables des Ollama-Prozesses — und das ist meist der Killer: API-Keys (OpenAI, Anthropic, Cloud-Provider), Datenbank-Credentials, JWT-Signing-Keys, Service-Account-Tokens
- Proprietärer Code, der zur Zusammenfassung oder Code-Review ans Modell geschickt wurde
- Datei-Inhalte, die durch RAG-Pipelines liefen
- Tool-Outputs aus agentischen Setups — bei Claude Code, LangChain, AutoGen läuft alles, was das Tool sieht, durch den Inferenz-Layer
Cyera formuliert es nüchtern: aus dem Inferenz-Stream einer Organisation lerne man praktisch alles, was die Organisation tut. API-Keys, proprietären Code, Kundenverträge, Personaldaten — was im Promptverkehr lebt, lebt im Heap.
Warum rund 300.000 Server exponiert sind
Die Größe des Problems überrascht erst auf den zweiten Blick. Drei strukturelle Faktoren machen Ollama zur Schatten-AI-Plattform schlechthin.
Default ohne Authentifizierung. Ollama bringt keinen eingebauten Auth-Layer mit. Im lokalen Entwickler-Setup ist das pragmatisch, in Produktion ist es eine Einladung. Das offizielle GitHub-Issue #11941 für einen "Secure Mode" steht seit Monaten offen — bis dahin ist jedes produktive Setup auf einen vorgeschalteten Reverse Proxy mit Auth angewiesen.
Konfigurationsfalle OLLAMA_HOST=0.0.0.0. Per Default bindet Ollama an 127.0.0.1 — sicher, aber nutzlos für Multi-User-Setups. Tutorials empfehlen daher routinemäßig OLLAMA_HOST=0.0.0.0 als Quick-Fix, ohne darauf hinzuweisen, dass damit auch jeder andere im Netz Zugriff hat. Die offizielle Doku erwähnt es, viele Drittquellen schlucken den Hinweis. Ergebnis: tausende Instanzen direkt am Internet.
Schatten-AI. Entwickler-Teams ziehen Ollama eigenständig hoch, weil "lokale KI" politisch leichter durchgeht als ein OpenAI-Account. IT- und Security-Abteilung erfahren oft erst nach dem Vorfall davon. Bishop Fox hat im Mai 2026 mit dem Open-Source-Tool AIMap gezeigt, wie trivial sich exponierte AI-Endpoints (Ollama, vLLM, LiteLLM, OpenWebUI, MCP-Server) finden lassen — und dass nur 13 Prozent der Organisationen überhaupt AI-spezifische Security Controls einsetzen.
Die geographische Verteilung exponierter Server (Stand: Cisco-Talos-Studie September 2025):
- USA: 36,6 Prozent
- China: 22,5 Prozent
- Deutschland: 8,9 Prozent
- Frankreich, Großbritannien, Niederlande, Japan, Korea folgen im einstelligen Bereich
Deutschland ist also nicht "auch ein bisschen betroffen", sondern Top-3-Standort weltweit. In absoluten Zahlen heißt das bei einer Cyera-Schätzung von 300.000 Instanzen rund 27.000 exponierte Ollama-Server mit deutscher IP. Dass die Lücke seit drei Monaten gepatcht war und trotzdem Auswirkungen hat, liegt nicht an Ollama selbst, sondern am Disclosure-Vakuum.
Was der Vorfall über die Reife des AI-Ökosystems verrät
Die Story der CVE-Vergabe ist instruktiver als die Lücke selbst.
- 2. Februar 2026: Cyera meldet die Lücke vertraulich an Ollama.
- 25. Februar 2026: Ollama bestätigt, baut den Fix, veröffentlicht Version 0.17.1 — ohne den Patch als Security-Fix zu kennzeichnen. In den Release-Notes steht stattdessen Routine-Vokabular wie "stability fixes".
- 2. März 2026: Cyera reicht den CVE-Antrag bei MITRE ein.
- 26. März, 26. April: Nachfragen bei MITRE bleiben unbeantwortet.
- 28. April 2026: Cyera eskaliert zur alternativen CVE Numbering Authority Echo, die noch am selben Tag CVE-2026-7482 vergibt.
- 1. Mai 2026: Veröffentlichung des Disclosures.
Was bedeutet das praktisch? Drei Monate lang war der Patch verfügbar, aber für die Welt unsichtbar. Vulnerability-Scanner kennen Schwachstellen in der Regel nur über CVE-IDs — kein CVE, kein Treffer, keine Warnung. Threat-Feeds, SIEM-Regeln, Compliance-Reports: alles blind. Wer kein eigenes Patch-Management mit Versions-Tracking betreibt, hat den Patch schlicht nicht eingespielt, weil ihn niemand darauf hingewiesen hat.
Das Muster ist nicht neu. 2024 — Probllama: Eine RCE-Lücke im selben Ollama-Stack, von Trend Micro entdeckt. September 2025 — Cisco Talos Shodan-Studie: über 1.100 exponierte Ollama-Instanzen ohne Auth in zehn Minuten gefunden. Mai 2026 — AIMap-Demo: über 175.000 exponierte Ollama-Instanzen plus eine wachsende Zahl ungeschützter vLLM- und LiteLLM-Endpunkte.
Aus der Cisco-Talos-Studie das Zitat, das es auf den Punkt bringt: weit verbreitete Vernachlässigung von Access Control, Authentifizierung und Network Isolation beim Deployment von AI-Systemen. Sie entstehe häufig dadurch, dass Organisationen eine neue Technologie schnell einführen, ohne IT- oder Security-Teams einzubinden.
Der Subtext: Das AI-Ökosystem ist 2026 da, wo der Webserver-Betrieb 1999 war. Standardmäßig offen, von Tutorials normalisiert, ohne strukturelle Sicherheits-Defaults. Bleeding Llama ist nicht der erste und nicht der letzte solche Vorfall — er ist der momentan sichtbarste.
Wer in Ihrer Organisation ist gefährdet
Vier Profile, in denen die Lücke direkt durchschlägt.
Unternehmen mit Ollama als internem AI-Assistant. Wenn Mitarbeitende über eine OpenWebUI-Oberfläche oder ein internes Chat-Frontend mit Ollama sprechen, läuft jede Konversation durch dasselbe Heap-Memory. Ein Angreifer mit Zugriff auf die API-Schnittstelle bekommt einen Querschnitt durch das, was die Belegschaft gerade fragt — von Vertragsentwürfen bis zu Recruiting-Daten.
Dev-Teams mit agentischen Workflows. Claude Code, Continue, LangChain, AutoGen, MCP-Server: All diese Tools senden Datei-Inhalte, Code-Snippets und Tool-Outputs durch das LLM-Backend. Bei einem Self-Hosted-Backend wie Ollama landen sämtliche dieser Daten im Heap. Ein erfolgreicher Angriff liefert nicht nur API-Keys, sondern Source-Code, Datenbank-Schemas und Customer-Daten gleich mit.
Regulierte Branchen. Wer in Healthcare, Finance, Legal oder dem öffentlichen Dienst lokale KI einsetzt — gerade weil der Cloud-Pfad regulatorisch nicht passt — hat im Heap exakt die Daten, die regulatorisch besonders schutzbedürftig sind. PII, PHI, Anwaltsgeheimnis, Bankgeheimnis. Ein Bleeding-Llama-Hit in dieser Konstellation ist ein meldepflichtiger Vorfall im Sinne von DSGVO Art. 33.
Lokale LAN-Instanzen. Auch ohne direkte Internet-Exposition gefährdet, wenn andere Nutzer oder Anwendungen im selben Netzsegment Zugriff haben. Ein kompromittierter Office-Rechner im selben VLAN reicht. Network Segmentation ist hier kein Nice-to-have, sondern Grundvoraussetzung.
Schnelle Risiko-Indikatoren für die IT-Leitung:
- Läuft Ollama mit
OLLAMA_HOST=0.0.0.0und ohne vorgeschalteten Auth-Proxy? - Ist Port 11434 von außerhalb des Server-Netzes erreichbar?
- Läuft eine Ollama-Version vor 0.17.1?
- Enthält die Environment des Ollama-Prozesses Secrets (typisch: ja)?
- Existiert Logging und Monitoring auf
/api/createund/api/push?
Bei drei oder mehr Treffern: Bleeding Llama ist ein realistisches Ist-Risiko, kein Theorie-Risiko.
Sofortmaßnahmen für IT-Leads
Innerhalb von 24 Stunden.
# Version prüfen
ollama --version
# Update via Installer
curl -fsSL https://ollama.com/install.sh | sh
# Docker-Stack
docker pull ollama/ollama:latest && docker compose up -d
Anschließend mit curl http://localhost:11434/api/version verifizieren, dass die laufende Instanz tatsächlich auf 0.17.1 oder höher steht. Wer eine ältere Version aus paketverwalteten Repos nutzt, sollte den Maintainer-Patch-Status separat prüfen — manche Distributionen hinken hinterher.
Innerhalb einer Woche.
- Asset-Inventur. Welche Hosts, Container und VMs laufen Ollama? Auch Schatten-IT erfassen — pragmatisch über
nmap -p 11434im internen Netz. - Internet-Exposition prüfen. Mit Shodan-Suche oder dem hauseigenen Asset-Scanner. Nichts auf Ollama-Port 11434 darf vom öffentlichen Internet erreichbar sein.
- Bei Verdacht auf Kompromittierung Secrets rotieren. Alle API-Keys (OpenAI, Anthropic, Cloud-Provider), DB-Credentials, JWT-Signing-Keys, Service-Tokens. Was im Heap des Ollama-Prozesses lag, ist potenziell in fremden Händen.
- Auth-Proxy davorsetzen. Nginx, Caddy oder Traefik mit Basic Auth (Minimum), besser OAuth2 (etwa via Authentik oder Zitadel) oder mTLS für Maschine-zu-Maschine-Setups.
- Network Segmentation. Ollama in ein eigenes VLAN, strikte Egress-Regeln, ausgehende Verbindungen nur zu bekannten Registries.
- Audit der agentischen Integrationen. Welche Tools (Claude Code, LangChain, MCP-Server) sprechen mit dem lokalen Ollama? Welche davon haben Datei-System-Zugriff? Was floss in den letzten 90 Tagen durch?
Mittelfristig. Die Hardening-Posture aufbauen, die im nächsten Abschnitt skizziert wird. Bleeding Llama ist nicht der Endpunkt, sondern der Anlass, lokale KI dauerhaft auf Produktions-Niveau zu heben.
Hardening-Posture für produktive Ollama-Deployments
Acht Bausteine, die jede Ollama-Instanz haben sollte, die mehr als ein Entwickler-Spielzeug ist.
1. Niemals 0.0.0.0 ohne Reverse Proxy. Default ist 127.0.0.1. Multi-User über einen Reverse Proxy lösen, nicht durch breitbandiges Bind aufmachen. Wenn 0.0.0.0 zwingend nötig ist (Container-Setup), gehört davor ein Auth-Layer.
2. Reverse Proxy mit TLS 1.3. Nginx, Caddy oder Traefik. TLS-Termination, HSTS, moderne Cipher-Suite. Self-signed reicht für interne Setups, Let's Encrypt oder eigene CA für alles, was über Domain-Namen erreicht wird.
3. Authentifizierung. Reihenfolge der Optionen nach Aufwand: Basic Auth (Minimum, gut für interne Setups), OAuth2 / OIDC via Authentik / Keycloak / Zitadel (Standard für mehrere Nutzer), mTLS (für Service-to-Service in regulierten Umgebungen).
4. Rate Limiting und API Gateway. limit_req in Nginx oder ein API-Gateway wie Kong oder Tyk. /api/create und /api/push strikt limitieren — der Bleeding-Llama-Exploit braucht maximal drei Requests pro Auslese, ein Rate-Limit auf zehn Requests pro Minute pro IP macht den Angriff im großen Maßstab unattraktiv.
5. Network Segmentation. Ollama in eigenes VLAN, Firewall-Regeln nach Whitelist-Prinzip. Eingehend nur vom Auth-Proxy, ausgehend nur zu definierten Registries. Wer das Setup auf Proxmox- oder Kubernetes-Basis fährt, kann via Network Policies bei Proxmox SDN oder Kubernetes NetworkPolicy granular steuern.
6. Container-Isolation und Least Privilege. Ollama nicht als Root laufen lassen, dedizierter ollama-User mit minimalen Rechten. Container mit Read-Only-Filesystem, Resource Limits, AppArmor- oder SELinux-Profil. Keine Service-Account-Tokens in Environment-Variables, sondern via Secret-Mount mit definiertem Geltungsbereich.
7. Egress-Filtering. Der Bleeding-Llama-Exploit braucht eine ausgehende Verbindung zum Push-Ziel. Strikte Egress-Regeln, die nur zu bekannten Modell-Registries (registry.ollama.ai, eigene private Registry) erlauben, schließen den Exfil-Pfad — selbst wenn die Lücke ungepatcht bleibt.
8. Monitoring und Anomalie-Detection. Alle Requests auf /api/create und /api/push loggen, mit Anomalie-Detection auf ungewöhnliche Push-Ziele, ungewöhnliche Modell-Größen, ungewöhnliche Request-Frequenzen. Ein zentrales Logging-Setup (Wazuh, OpenSearch, Graylog) macht den Unterschied zwischen "wäre aufgefallen" und "ist drei Monate stillschweigend gelaufen".
Wer alle acht Punkte abgedeckt hat, hat Bleeding Llama nicht nur überstanden, sondern auch die Voraussetzungen für die nächste Lücke geschaffen — denn die nächste kommt.
Die Lehre für Entscheider
Lokale KI ist die richtige Antwort auf eine Reihe drängender Fragen — DSGVO, EU AI Act, Datenresidenz, Vendor-Lock-in, Souveränität. Aber: Lokale KI ist nicht automatisch sichere KI. Sie ist eine Architektur-Wahl, die Verantwortung verschiebt — vom Cloud-Anbieter zur eigenen IT-Organisation.
Bleeding Llama macht diese Verschiebung sichtbar. Vor zwei Jahren war "lokale KI" die mutige Wahl — heute ist sie weit verbreitet, oft ohne dass die Betriebsorganisation entsprechend mitgewachsen ist. Die Schatten-AI-Welle hat in vielen Unternehmen Instanzen produziert, die niemand auf der Liste hat, die niemand patcht und die niemand monitort.
Drei Konsequenzen für Entscheider:
Self-Hosting ohne Operations-Layer ist ein leeres Versprechen. "Wir hosten lokal" reicht nicht — die Frage ist, wer patcht, monitort, segmentiert, auditiert. Wer das nicht klar beantworten kann, hat ein Souveränitäts-Etikett ohne Souveränitäts-Substanz. Die Folge eines erfolgreichen Bleeding-Llama-Angriffs ist im Zweifel meldepflichtig nach DSGVO Art. 33 — und damit auf der Tagesordnung der Geschäftsleitung.
CVE-Monitoring ist Pflicht, nicht Kür. Eine Lücke, die drei Monate gepatcht und unsichtbar war, ist genau das Szenario, gegen das systematisches Patch-Management schützt. Wer auf "wir lesen die Release-Notes" baut, hat das Spiel schon verloren — die Release-Notes haben den Patch nicht als Security-Fix markiert. Strukturiertes CVE-Monitoring prüft auch ohne CVE-ID gegen Vendor-Feeds und vergleicht laufende Versionen mit Public Patches.
NIS2 ändert die Eigentumsverhältnisse der Frage. Mit dem Anfang 2026 in deutsches Recht überführten NIS2-Umsetzungsgesetz ist Schwachstellen-Management explizit Aufgabe der Leitungsorgane. Bei Verletzung haftet die Geschäftsführung persönlich — bis zu 10 Millionen Euro oder zwei Prozent des Konzernumsatzes, im Ernstfall Privatvermögen. Wer also lokale KI rollt, ohne den dazugehörigen Operations-Layer aufzubauen, exportiert ein konkretes Haftungsrisiko nach oben.
Der Fix ist nicht "weniger lokale KI", sondern "professionellerer Betrieb der lokalen KI". Beim DSGVO-Gewinn bleiben — und beim Sicherheitsgewinn nachlegen.
Unser Vorgehen bei WZ-IT
Wir betreiben lokale KI-Stacks als Managed Service in drei Stufen.
Stufe 1 — Architektur und Stack. Wir bauen Ollama, OpenWebUI, AnythingLLM oder vLLM als hardened Stack auf eigener Infrastruktur in Deutschland auf — auf Wunsch im eigenen Proxmox-Cluster, auf Hetzner, netcup oder On-Premise. Auth-Proxy mit OIDC, TLS 1.3, Network Segmentation, Egress-Filtering und Container-Isolation sind nicht Optionen, sondern Standard. Optional auch auf dedizierter GPU-Hardware wie dem AI Cube oder DGX Spark.
Stufe 2 — CVE-Monitoring und Patch-Management. Über unseren Managed-Operations-Service prüfen wir täglich gegen NVD, CISA-KEV, OSV, BSI-Warnungen und Vendor-spezifische Feeds. Genau die Lücke, die bei Bleeding Llama drei Monate stillschweigend gepatcht war, hätten wir über Versions-Tracking gegen das Ollama-GitHub-Repo erkannt — auch ohne CVE-ID. Kritische Lücken patchen wir innerhalb der vereinbarten Reaktionszeit, dokumentiert mit Compliance-Nachweis für NIS2-Audits.
Stufe 3 — Compliance und Reporting. Architektur-Dokumentation, dokumentierte RTO/RPO, monatlicher Patch-Report an die Geschäftsleitung, dokumentierte Restore-Tests, Audit-Trail für DSGVO-Auskünfte und EU-AI-Act-Pflichten. Wer als Hochrisiko-System nach EU AI Act eingestuft wird (siehe unser Beitrag zum EU AI Act ab August 2026), bekommt die nötigen Belege auf Knopfdruck.
Pragmatisch heißt das: Sie geben uns Ihre Use Cases, Modelle und Compliance-Anforderungen — wir liefern den Stack, betreiben ihn und stellen sicher, dass die nächste Bleeding-Llama-Lücke kein Schatten-AI-Skandal wird, sondern ein Patch-Ticket.
Weiterführende Guides
- CVE-Monitoring & Schwachstellen-Scanner als Managed Service — der zentrale Service hinter strukturierter Reaktion auf Lücken wie Bleeding Llama
- Open WebUI Hosting — die Standard-UI für Ollama, hardened in unserer Infrastruktur betrieben
- AI Cube — dedizierte GPU-Hardware für lokale KI — wenn die Inferenz-Last über das hinausgeht, was eine VM leisten kann
- Linux-Kernel-Schwachstellen 2026: Patch-Management Chefsache — der NIS2-Kontext im Detail
- CVE-Monitoring für Self-Hosted Software — wie strukturelle Reaktion auf Schwachstellen funktioniert
- Llama 4 vs. Qwen 3.5 vs. DeepSeek V4 — Modell-Auswahl für lokale Enterprise-KI
- DGX Spark vs. AI Cube — Hardware-Entscheidung für lokale KI
- EU AI Act ab August 2026 — der regulatorische Rahmen, in dem lokale KI 2026 operiert
Sie betreiben Ollama, OpenWebUI oder einen anderen lokalen KI-Stack — und sind sich nicht sicher, ob Bleeding Llama Sie betrifft? Wir prüfen Ihren Stack kostenfrei: Versions-Audit, Exposition-Check, Auth-Layer-Bewertung, Egress-Analyse. Output: konkrete Empfehlung mit Priorisierung, oder direkt eine Übernahme als Managed Service.
Kostenloses KI-Sicherheits-Review buchen · Mehr zu CVE-Monitoring · Open WebUI Hosting
Häufig gestellte Fragen
Antworten auf wichtige Fragen zu diesem Thema
Eine kritische Schwachstelle (CVSS 9.1) im GGUF-Modell-Loader von Ollama, am 1. Mai 2026 von Cyera Research veröffentlicht. Drei unauthentifizierte API-Calls (POST /api/blobs, /api/create, /api/push) reichen, um über einen Heap-Out-of-Bounds-Read den Arbeitsspeicher des Servers gezielt auszuleiten — inklusive System-Prompts, paralleler Chat-Sessions, Environment-Variables, API-Keys und Datenbank-Credentials. Fix: Update auf Ollama 0.17.1 oder neuer.
Alles, was zum Zeitpunkt des Angriffs im Heap-Memory von Ollama liegt: System-Prompts der laufenden Modelle, parallele User-Prompts und Chat-Verläufe, vollständige Environment-Variables (OpenAI- und Anthropic-API-Keys, DB-Credentials, JWT-Tokens, Cloud-Service-Secrets), proprietärer Code, der ans Modell gesendet wurde, sowie bei agentischen Setups (Claude Code, LangChain) auch Tool-Outputs und Datei-Inhalte. Cyera spricht von praktisch dem gesamten Inferenz-Stream einer Organisation.
Cisco Talos hat im September 2025 die geografische Verteilung exponierter Ollama-Server analysiert: USA 36,6 Prozent, China 22,5 Prozent, Deutschland 8,9 Prozent — der drittgrößte Standort weltweit. Deutsche Unternehmen sind unter den Top 3, was öffentlich erreichbare, oft ungeschützte Ollama-Instanzen angeht. Die Schatten-AI-Welle hat den deutschen Mittelstand nicht ausgespart.
1. ollama --version prüfen, auf 0.17.1 oder neuer aktualisieren. 2. Internet-Exposition prüfen — Port 11434 darf nicht öffentlich erreichbar sein. 3. Bei Verdacht auf Kompromittierung alle Secrets rotieren (API-Keys, DB-Credentials, JWT-Signing-Keys). 4. Authentifizierungs-Proxy (Nginx oder Caddy mit OAuth2 oder mTLS) davorsetzen. 5. Network Segmentation einführen, Egress-Filtering aktivieren. 6. Logs auf /api/create und /api/push überwachen, Anomalie-Detection scharfschalten.
Ollama hat den Fix in Version 0.17.1 ausgeliefert, aber nicht als Security-Patch gekennzeichnet. Cyera hat die CVE-Anmeldung am 2. März 2026 bei MITRE eingereicht und drei Monate keine Antwort bekommen. Erst nach Eskalation an die alternative CNA Echo wurde am 28. April CVE-2026-7482 vergeben. Folge: Vulnerability-Scanner haben die Lücke nicht erkannt, Threat-Feeds enthielten keinen Eintrag, Operatoren wussten nichts von der Bedrohung. Das ist das stärkste Argument für strukturiertes CVE-Monitoring jenseits der bloßen NVD-Quelle.
OpenWebUI selbst nicht direkt von CVE-2026-7482. Aber: OpenWebUI ist die Standard-UI für Ollama, fast immer im selben Netzsegment, oft im selben Container-Stack. Wer Ollama als Backend für OpenWebUI betreibt und Ollama nicht patcht, leakt indirekt auch alle OpenWebUI-Konversationen — die laufen ja durch Ollama hindurch. Außerdem hat Bishop Fox im Mai 2026 mit AIMap gezeigt, dass auch OpenWebUI-Endpunkte zunehmend exponiert sind. OpenWebUI-Betreiber sollten denselben Hardening-Pfad (Auth-Proxy, Egress-Filter, Network-Segmentation) durchlaufen.
Wir betreiben lokale KI-Stacks (Ollama, OpenWebUI, AnythingLLM, vLLM) als Managed Service auf eigener Infrastruktur in Deutschland — mit Authentifizierungs-Proxy, Network-Segmentation, Egress-Filtering und Container-Isolation als Standard, nicht als Extra. CVE-Monitoring via Managed-Operations-Service prüft täglich gegen NVD, CISA-KEV und Vendor-spezifische Feeds — kritische Lücken werden in Stunden statt Wochen gepatcht. Dazu: dokumentierte Architektur für NIS2-Audits, klare RTO/RPO und persönlicher Ansprechpartner.

Geschrieben von
Timo Wevelsiep
Co-Founder & CEO
Co-Founder von WZ-IT. Spezialisiert auf Cloud-Infrastruktur, Open-Source-Plattformen und Managed Services für KMUs und Enterprise-Kunden weltweit.
LinkedInLassen Sie uns über Ihre Idee sprechen
Ob konkrete IT-Herausforderung oder einfach eine Idee – wir freuen uns auf den Austausch. In einem kurzen Gespräch prüfen wir gemeinsam, ob und wie Ihr Projekt zu WZ-IT passt.


Timo Wevelsiep & Robin Zins
Geschäftsführer




