KI im Homelab Ollama LLM lokal

KI im Homelab: Ollama installieren und LLMs lokal betreiben (2026)

Hinweis: Dieser Artikel enthält Affiliate-Links. Wenn du über diese Links einkaufst, erhalten wir eine kleine Provision – für dich entstehen keine Mehrkosten. Mehr erfahren

KI im Homelab betreiben – 2026 ist das für jeden IT-Enthusiasten möglich. Mit Ollama kannst du lokale KI-Modelle (LLMs) auf deinem eigenen Server installieren und nutzen: ohne Cloud-Abo, ohne Datenweitergabe und ohne laufende Kosten. Diese Anleitung zeigt dir, wie du KI im Homelab einrichtest und welche Modelle für welche Hardware geeignet sind.

KI im Homelab: Warum lokale LLMs sinnvoll sind

Noch vor wenigen Jahren war das Ausführen großer Sprachmodelle (LLMs) auf eigener Hardware Science-Fiction. 2026 ist es Alltag für Homelab-Enthusiasten: Mit Ollama lässt sich ein leistungsfähiges KI-Modell wie DeepSeek-R1, Qwen 2.5 oder Llama 3.3 in wenigen Minuten auf dem eigenen Server in Betrieb nehmen – ohne Cloud, ohne monatliche Kosten, ohne Datenweitergabe.

Ollama installieren: KI im Homelab einrichten

In diesem Tutorial zeige ich dir, wie du Ollama im Homelab installierst und lokale LLMs selbst betreibst. Wir schauen uns Hardware-Anforderungen an, erklären Quantisierung und gehen auf die Integration mit Proxmox LXC ein.

Was ist Ollama?

Ollama hat sich als de-facto-Standard-Tool für das Ausführen lokaler LLMs etabliert. Es stellt eine einfache CLI-Schnittstelle bereit, mit der sich Open-Weight-Modelle herunterladen, konfigurieren und als API-Server betreiben lassen – unter Linux, macOS und Windows.

Der entscheidende Vorteil: Statt hunderte Gigabyte Modell-Gewichte manuell zu verwalten, reicht ein einziger Befehl:

ollama run deepseek-r1

Ollama lädt das Modell automatisch herunter und startet einen lokalen Inferenz-Server. Anschließend steht eine OpenAI-kompatible REST-API unter http://localhost:11434 bereit – perfekt für die Integration in eigene Anwendungen, n8n-Workflows oder Open WebUI.

Hardware-Anforderungen: Welches Modell für welche GPU?

🛒 Empfehlung: ASUS Dual GeForce RTX 4070 OC Edition (12 GB GDDR6X)

Ausgezeichnete GPU für lokale KI-Modelle mit Ollama: 12 GB VRAM reichen für 13B-Modelle in Q4-Quantisierung. Gutes Preis-Leistungs-Verhältnis für das KI-Homelab.

Preis: ab ca. 550 €*


Auf Amazon ansehen →

*Preis kann variieren. Stand: Zuletzt abgerufen bei Veröffentlichung.

Der wichtigste Faktor beim lokalen LLM-Betrieb ist der VRAM der Grafikkarte. Faustregel: ca. 0,6 GB VRAM pro Milliarde Parameter bei Q4_K_M-Quantisierung.

VRAM-Empfehlungen

  • 8 GB VRAM (RTX 3070/4060 Ti): 7–8B-Modelle wie Llama 3.3 8B oder Qwen 2.5 7B – flüssig mit 30–50 Token/s
  • 12–16 GB VRAM (RTX 3080/4070): bis ~13B-Modelle – gutes Preis-Leistungs-Verhältnis
  • 24 GB VRAM (RTX 3090/4090): 30–32B-Modelle wie Qwen 2.5 Coder 32B – hervorragend für Code-Assistenz
  • 48 GB+ VRAM (RTX 6000 Ada / MI300X): 70B-Modelle vollständig in VRAM – profi-nahe Qualität

Kein dediziertes GPU? Kein Problem: Ollama nutzt auch die CPU (deutlich langsamer, aber funktional) oder Apple Silicon mit Unified Memory – ein M2 Max mit 96 GB RAM kann problemlos 70B-Modelle betreiben.

Für Nvidia-GPUs empfiehlt sich Treiberversion 550+ und eine funktionierende nvidia-smi-Ausgabe. AMD-GPUs werden unter Linux via ROCm 6.x unterstützt.

Ollama installieren – Schritt für Schritt

Linux (Ubuntu/Debian/Proxmox Host)

curl -fsSL https://ollama.com/install.sh | sh

Das Installationsskript erkennt automatisch vorhandene NVIDIA- oder AMD-GPUs und richtet die nötigen Abhängigkeiten ein. Nach der Installation läuft Ollama als Systemdienst:

systemctl status ollama

Erste Schritte

# Modell herunterladen und starten
ollama run llama3.3

# Verfügbare Modelle auflisten
ollama list

# Modell im Hintergrund als API-Server betreiben
ollama serve

Nützliche Modelle für den Einstieg

  • ollama run deepseek-r1:8b – Reasoning-Modell, stark bei Mathe und Logik
  • ollama run qwen2.5-coder:7b – ausgezeichnetes Code-Modell
  • ollama run llama3.3 – ausgewogenes Allround-Modell von Meta
  • ollama run mistral-nemo – kompakt und schnell

Quantisierung verständlich erklärt

Ein 70B-Modell in voller FP16-Genauigkeit belegt ca. 140 GB – weit jenseits von Consumer-Hardware. Durch Quantisierung werden die Modellgewichte auf 4 Bit komprimiert, was den Speicherbedarf um bis zu 75 % reduziert.

Das Ergebnis: Ein 70B-Modell passt mit Q4_K_M-Quantisierung in ca. 38–48 GB VRAM – bei nur minimalem Qualitätsverlust (1–3 % höhere Perplexität in Standard-Benchmarks).

Ollama lädt standardmäßig quantisierte Modelle. Die Suffixe bedeuten:

  • :Q4_K_M – 4-Bit, empfohlen für Consumer-Hardware (Goldstandard)
  • :Q5_K_M – 5-Bit, etwas bessere Qualität, mehr VRAM nötig
  • :Q8_0 – 8-Bit, nahe an voller Qualität, hoher VRAM-Bedarf
# Spezifische Quantisierungsstufe auswählen
ollama run qwen2.5:32b-instruct-q4_K_M

Ollama in einem Proxmox LXC betreiben

Wer Proxmox nutzt, kann Ollama elegant in einem LXC-Container betreiben und so die GPU mit anderen Containern oder VMs teilen.

NVIDIA GPU Passthrough in LXC

Zunächst muss der Proxmox-Host die GPU-Treiber kennen. Danach werden die GPU-Devices dem Container zugänglich gemacht. In der LXC-Konfigurationsdatei (/etc/pve/lxc/<ID>.conf) werden folgende Zeilen ergänzt:

lxc.cgroup2.devices.allow: c 195:* rwm
lxc.cgroup2.devices.allow: c 234:* rwm
lxc.mount.entry: /dev/nvidia0 dev/nvidia0 none bind,optional,create=file
lxc.mount.entry: /dev/nvidiactl dev/nvidiactl none bind,optional,create=file
lxc.mount.entry: /dev/nvidia-uvm dev/nvidia-uvm none bind,optional,create=file

Anschließend den Container auf privileged setzen, die NVIDIA-Treiber im Container installieren und Ollama wie oben beschrieben einrichten. Benchmarks zeigen, dass die GPU-Performance im LXC nur ca. 1–2 % unter Bare-Metal liegt – ein vernachlässigbarer Unterschied.

Tipp: Open WebUI im zweiten Container

Eine saubere Architektur trennt den Ollama-Server (LXC mit GPU) von der Web-UI. Open WebUI (ehemals Ollama WebUI) läuft im zweiten Container ohne GPU-Zugriff und kommuniziert über das interne Proxmox-Netzwerk mit Ollama:

docker run -d \
  -p 3000:8080 \
  -e OLLAMA_BASE_URL=http://<ollama-lxc-ip>:11434 \
  ghcr.io/open-webui/open-webui:main

Private KI-Automatisierung mit n8n + Ollama

Eine der spannendsten Kombination im Homelab: n8n (self-hosted Workflow-Automatisierung) + Ollama = private KI-Workflows für 0 €/Monat.

Mögliche Anwendungsfälle:

  • E-Mails automatisch zusammenfassen und priorisieren
  • RSS-Feeds zu Wochenberichten zusammenführen
  • Dokumente klassifizieren und archivieren
  • Lokaler Chatbot für interne Dokumentation

In n8n gibt es einen nativen Ollama-Node, der sich mit der lokalen API verbindet. Keine API-Schlüssel, keine Tokens, keine Kosten – alle Daten bleiben auf deinem Server.

Datenschutz: Der entscheidende Vorteil

Wer ChatGPT oder Claude in der Cloud nutzt, akzeptiert, dass Anfragen auf externen Servern verarbeitet werden. Mit Ollama im Homelab bleiben alle Prompts und Antworten auf deiner eigenen Hardware. Das ist besonders relevant für:

  • Verarbeitung vertraulicher Unternehmensdaten
  • Medizinische oder rechtliche Informationen
  • Persönliche Notizen und Tagebucheinträge
  • Code aus proprietären Projekten

Häufige Probleme und Lösungen beim Ollama-Betrieb

Beim Einrichten von KI im Homelab begegnen dir häufig die gleichen Stolperfallen. Hier sind die häufigsten Probleme und wie du sie behebst:

Ollama erkennt die GPU nicht

Wenn ollama run auf der CPU statt der GPU läuft, prüfe zuerst:

# NVIDIA-GPU-Status prüfen
nvidia-smi

# Ollama-Logs auf GPU-Erkennung prüfen
journalctl -u ollama -f

Häufige Ursachen: veraltete NVIDIA-Treiber (mindestens Version 550 erforderlich), fehlende NVIDIA-Container-Toolkit-Installation oder falsche Berechtigungen. Installiere das Toolkit mit apt install nvidia-container-toolkit und starte den Ollama-Dienst neu.

Modell lädt sehr langsam oder bricht ab

Wenn ein Modell beim Download abbricht, nutze ollama pull statt ollama run – das erlaubt Fortsetzung unterbrochener Downloads. Modelle werden in ~/.ollama/models gespeichert und können mehrere Gigabyte groß sein. Stelle sicher, dass genug Festplattenspeicher vorhanden ist – mindestens 20 GB für den Einstieg sind empfohlen. Mit df -h kannst du den verfügbaren Speicherplatz schnell überprüfen.

Ollama API von außen nicht erreichbar

Standardmäßig lauscht Ollama nur auf localhost:11434. Um die API für andere Container oder Geräte im Heimnetz zugänglich zu machen, setze in der Systemd-Service-Datei die Umgebungsvariable:

Environment="OLLAMA_HOST=0.0.0.0"

Dann systemctl daemon-reload && systemctl restart ollama ausführen. Achte darauf, den Port in der Firewall nur für vertrauenswürdige Netzwerksegmente freizugeben – Ollama hat keine eingebaute Authentifizierung. Eine einfache Absicherung ist ein Nginx-Reverse-Proxy mit Basic Auth vor dem Ollama-Port.

Zu langsame Inferenz trotz GPU

Falls die Token-Generierung trotz GPU unerwartet langsam ist, prüfe ob das Modell vollständig in den VRAM passt. Mit ollama ps siehst du, welche Modelle aktuell geladen sind und wie viel VRAM sie belegen. Ein Modell, das nicht vollständig in den VRAM passt, wird teilweise auf der CPU berechnet – mit deutlich geringerer Geschwindigkeit. Wähle in diesem Fall eine stärker quantisierte Version oder ein kleineres Modell.

Fazit: Lokale KI ist 2026 für jeden zugänglich

Der Einstieg in die lokale KI im Homelab war noch nie so einfach. Mit Ollama lässt sich in wenigen Minuten ein leistungsfähiger LLM-Server aufsetzen – egal ob auf einer Gaming-GPU, einem Proxmox-Server oder einem alten Workstation-PC.

Der Schlüssel ist das Verständnis von Quantisierung: Ein gut gewähltes Q4_K_M-Modell bietet 90 %+ der Qualität eines unkomprimierten Modells bei einem Bruchteil des VRAM-Bedarfs. Wer bereits eine RTX 3080 oder ähnliches im Homelab hat, kann heute noch loslegen.

In einem nächsten Artikel schauen wir uns an, wie man mit LangChain und Ollama eigene RAG-Systeme (Retrieval-Augmented Generation) aufbaut – für einen persönlichen KI-Assistenten, der deine eigenen Dokumente kennt.

Ähnliche Beiträge