HA-Cluster mit Proxmox aufbauen: Hochverfügbarkeit Schritt für Schritt
Timo Wevelsiep•Aktualisiert: 29.06.2026Hinweis zum Inhalt: Versionen, Befehle und Preise können sich ändern. Bitte prüfen Sie kritische Schritte vor dem produktiven Einsatz eigenständig. Dieser Leitfaden ersetzt keine individuelle Beratung.
Ein HA-Cluster (High Availability) mit Proxmox VE sorgt dafür, dass Ihre virtuellen Maschinen einen Hardware- oder Node-Ausfall überstehen: Fällt ein Server aus, startet Proxmox die betroffenen VMs automatisch auf einem anderen, gesunden Node neu. Diese Anleitung zeigt, wie ein solcher Cluster aufgebaut ist, welche Voraussetzungen er hat und wie Sie ihn Schritt für Schritt einrichten.
Wichtig vorab zur Einordnung: Proxmox HA ist restart-basiert, nicht unterbrechungsfrei. Es minimiert die Ausfallzeit auf die Dauer eines Neustarts, ersetzt aber kein cluster-übergreifendes „Zero-Downtime". Wer die Grundlagen sucht, findet sie in Was ist Proxmox?.
Voraussetzungen
Ein produktiver HA-Cluster braucht ein solides Fundament:
- Mindestens drei Nodes. Quorum (die Beschlussfähigkeit des Clusters) erfordert die Mehrheit der Stimmen. Mit drei Nodes übersteht der Cluster den Ausfall eines Nodes und bleibt beschlussfähig. Zwei Nodes sind nur mit einem QDevice als dritter Stimme sinnvoll (dazu unten mehr).
- Zuverlässiges, schnelles Netzwerk. Die Cluster-Kommunikation läuft über Corosync und reagiert empfindlich auf Latenz. Empfohlen sind Latenzen unter 5 ms zwischen den Nodes und ein dediziertes Netzwerk (eigene NIC) nur für Corosync, getrennt vom VM- und Storage-Traffic.
- Synchrone Uhren und gleiche Version. NTP auf allen Nodes, identische Proxmox-VE-Version, erreichbarer SSH-Port 22 zwischen den Nodes.
- HA-fähiger Storage. Die VM-Disks müssen auf mehreren Nodes verfügbar sein - über verteilten Shared-Storage (Ceph) oder über ZFS-Replikation.
Schritt 1: Cluster erstellen
Auf dem ersten Node legen Sie den Cluster an:
pvecm create mein-cluster
Den Status prüfen Sie jederzeit mit:
pvecm status
Schritt 2: Weitere Nodes hinzufügen
Auf jedem weiteren Node treten Sie dem bestehenden Cluster bei (die IP ist die eines bereits vorhandenen Node):
pvecm add 10.0.0.1
Danach erscheinen alle Nodes in der Weboberfläche unter „Datacenter" und teilen sich die Konfiguration über das Cluster-Dateisystem pmxcfs.
Schritt 3: Quorum verstehen und absichern
Bei einer Netzwerk-Partitionierung dürfen nur die Nodes weiterarbeiten, die die Mehrheit der Stimmen halten; die unterlegene Seite geht in den read-only-Modus. Deshalb:
- Drei oder mehr Nodes sind die saubere Lösung.
- Bei einem 2-Node-Cluster ergänzen Sie ein QDevice: ein leichtgewichtiger Dienst (
corosync-qnetd) auf einem dritten, unabhängigen System (z. B. eine kleine VM auf anderer Hardware oder ein Raspberry Pi), das die entscheidende dritte Stimme liefert.
apt install corosync-qdevice
pvecm qdevice setup <QDEVICE-IP>
Schritt 4: Storage für HA - Ceph oder ZFS-Replikation
Die VM-Disks müssen den Node-Ausfall überleben. Zwei etablierte Wege:
| Ceph | ZFS-Replikation | |
|---|---|---|
| Prinzip | Verteilter Shared-Storage, synchron | Asynchrone Replikation im Intervall |
| Mindest-Nodes | 3+ | ab 2 |
| Netzwerk | 10 GbE+ empfohlen | unkritischer |
| Datenaktualität nach Ausfall | aktuell (RPO ~0) | Stand der letzten Replikation (RPO = Intervall) |
| Komplexität | höher | gering |
| Passt für | Produktion mit hoher Datenaktualität | schlanke Setups mit toleriertem Datenverlust |
Faustregel: Ab drei Nodes mit schnellem Netz ist Ceph der Goldstandard. Für kleine, kostenbewusste Setups ist ZFS-Replikation eine pragmatische Near-HA-Lösung - mit dem Bewusstsein, dass beim Failover die Änderungen seit der letzten Replikation fehlen.
Schritt 5: HA aktivieren
Hochverfügbarkeit verwalten zwei Dienste: der Cluster Resource Manager (pve-ha-crm, einer pro Cluster) und der Local Resource Manager (pve-ha-lrm, einer pro Node). Konkret:
- In der Weboberfläche unter Datacenter → HA die gewünschten VMs/Container als HA-Ressourcen hinzufügen.
- Optional HA-Groups definieren, um festzulegen, auf welchen Nodes eine VM bevorzugt laufen soll (Affinität, Prioritäten).
- Den gewünschten Zielzustand setzen (z. B.
started).
Ab jetzt überwacht der HA-Stack die Ressourcen und startet sie bei einem Node-Ausfall automatisch neu.
Schritt 6: Fencing und Watchdog
Damit ein scheinbar toter Node nicht doch eine VM weiterbetreibt, während sie woanders startet (Split-Brain), nutzt Proxmox Watchdog-basiertes Self-Fencing. Standardmäßig kommt das softdog-Kernelmodul zum Einsatz: Verliert ein Node das Quorum, läuft sein Watchdog ab und der Node rebootet sich selbst, bevor die HA-Ressourcen anderswo anlaufen. Für höhere Anforderungen lässt sich ein Hardware-Watchdog oder Out-of-Band-Fencing (IPMI/iLO) ergänzen.
Schritt 7: Failover testen
Ein HA-Cluster ist nur so gut wie sein getesteter Ernstfall. Simulieren Sie einen Node-Ausfall (Node hart ausschalten oder vom Netz trennen) und prüfen Sie, ob die HA-VMs innerhalb der erwarteten Zeit auf einem anderen Node neu starten. Dokumentieren Sie zudem, wie sich ein Node manuell fencen lässt.
Typische Fehler
- 2-Node-Cluster ohne QDevice. Bei jedem Ausfall verliert der Cluster das Quorum und wird read-only - HA greift dann nicht zuverlässig.
- Corosync über das Storage- oder VM-Netz. Latenz-Spitzen führen zu Quorum-Verlust und unnötigen Fencing-Aktionen. Corosync gehört in ein eigenes, stabiles Netz (idealerweise redundant).
- HA mit „Zero-Downtime" verwechseln. HA bedeutet automatischer Neustart, nicht unterbrechungsfreier Betrieb.
- Kein Fencing geplant. Ohne Watchdog oder Fencing riskieren Sie Datenkorruption durch Split-Brain.
- Backups vernachlässigt. HA repliziert auch Fehler und Ransomware. Ein separates Backup - etwa mit verschlüsselten Proxmox-Backups auf einer Hetzner Storage Box - bleibt Pflicht.
Betrieb und Unterstützung
Ein HA-Cluster ist im Aufbau überschaubar, im Dauerbetrieb aber anspruchsvoll: Quorum-Design, Corosync-Netzwerk, Storage-Strategie, Patch-Management und getestete Restores müssen sauber zusammenpassen. Wenn Sie eine Proxmox-Einrichtung auf Hetzner planen oder den Cluster nicht selbst betreiben möchten, übernehmen wir Konzeption, Aufbau und Betrieb - Details auf unserer Seite zu Proxmox & Private Cloud.
Sie möchten Proxmox nicht selbst betreiben? WZ-IT übernimmt Einrichtung, Betrieb und Wartung – DSGVO-konform aus Deutschland.
Häufig gestellte Fragen
Antworten auf die wichtigsten Fragen
Für stabiles Quorum sind mindestens drei Nodes empfohlen. Mit nur zwei Nodes verliert der Cluster bei einem Ausfall die Mehrheit und wird read-only - das lässt sich mit einem QDevice (eine dritte, leichtgewichtige Stimme auf einem separaten System) abfangen. Für echte Produktion sind drei vollwertige Nodes der saubere Weg.
Nein. Proxmox HA startet eine VM nach dem Ausfall eines Nodes automatisch auf einem anderen Node neu - es ist also restart-basiert, nicht unterbrechungsfrei. Es gibt eine kurze Ausfallzeit, bis die VM neu gebootet ist. Unterbrechungsfreies Verschieben (Live-Migration) ist ein separates Feature und funktioniert nur bei geplanter Wartung, nicht beim ungeplanten Ausfall.
Ceph ist verteilter, synchroner Shared-Storage und der Goldstandard ab drei Nodes mit schnellem Netz (10 GbE+); nach einem Ausfall sind die Daten aktuell. ZFS-Replikation ist asynchron, einfacher und auch mit zwei Nodes nutzbar, repliziert die VM-Disks aber nur im Intervall - beim Failover gehen die Änderungen seit der letzten Replikation verloren. Ceph für maximale Datenaktualität, ZFS-Replikation für schlanke Setups mit toleriertem RPO.
Unbedingt. HA schützt gegen Hardware- und Node-Ausfälle, nicht gegen Datenverlust durch Ransomware, Fehlbedienung oder defekte Daten - die werden bei Ceph oder Replikation mitrepliziert. Ein separates, idealerweise offsite gelagertes Backup (z. B. mit Proxmox Backup Server) bleibt Pflicht.
Fencing stellt sicher, dass ein als ausgefallen geltender Node eine VM nicht doch noch weiterbetreibt, während sie woanders neu startet (Split-Brain mit Datenkorruption). Proxmox nutzt dafür einen Hardware-Watchdog (per Default das softdog-Modul): Verliert ein Node das Quorum, setzt sich der Watchdog zurück und der Node rebootet sich selbst, bevor die HA-Ressourcen anderswo starten.
Mehr zu Proxmox
- Was ist Proxmox?
- LXC vs KVM
- Proxmox vs Docker
- Storage: ZFS, Ceph & LVM
- Was kostet Proxmox?
- Proxmox vs VMware
- Von VMware zu Proxmox migrieren
- Nachteile & Eignung
- Proxmox installieren
- Proxmox auf Hetzner einrichten
- Hardware & Sizing
- Proxmox VE 8 auf 9 upgraden
- Subscription-Warnung entfernen
- Proxmox Troubleshooting (in Arbeit)
- HA-Cluster mit Proxmox aufbauen
- Cluster-Netzwerk auf Hetzner (vSwitch)
- Cluster-Netzwerk auf OVH (vRack)
- Cluster-Netzwerk auf IONOS (VLAN)
- Was ist Proxmox Backup Server?
- Proxmox Backup Server offsite (Pull-Architektur)
- Verschlüsselte Backups mit Hetzner Storage Box
- Was ist Datacenter Manager?
- Was ist Mail Gateway?
- Server mieten & Hosting







