KI lokal betreiben mit Ollama – DeepSeek & Qwen 2.5 im Homelab (2026)
Stell dir vor, du hast deinen eigenen privaten ChatGPT-Ersatz – vollständig offline, auf deiner eigenen Hardware, ohne monatliche Kosten und ohne dass irgendeine KI-Firma deine Daten bekommt. Klingt gut? Mit Ollama ist das heute Realität, und in diesem Tutorial zeige ich dir, wie du KI lokal betreiben kannst – mit modernen Modellen wie DeepSeek-R1 und Qwen 2.5 auf deinem Homelab-Server.
Was ist Ollama und warum boomt es gerade?
Ollama ist ein Open-Source-Tool, das es extrem einfach macht, große Sprachmodelle (LLMs) lokal auf deinem Rechner oder Server zu betreiben. Kein kompliziertes Python-Environment, kein Docker-Chaos – einfach installieren, Modell laden, loslegen.
Die Zahlen sprechen für sich: Im ersten Quartal 2026 verzeichnet Ollama 52 Millionen monatliche Downloads. Das ist kein Nischen-Experiment mehr, das ist Mainstream-Software für alle, die ihre KI selbst hosten wollen.
Der Grundgedanke ist simpel: Ollama lädt das gewünschte Sprachmodell herunter, verwaltet es lokal und stellt eine REST-API bereit – kompatibel mit der OpenAI-API. Das bedeutet, du kannst viele Anwendungen, die eigentlich für OpenAI gebaut wurden, einfach auf dein lokales Modell umleiten.
Hardware-Anforderungen: Was brauche ich für KI lokal betreiben?
Eine der häufigsten Fragen: Welche Hardware brauche ich? Hier ist die kurze Antwort:
- 8B-Modelle (z.B. DeepSeek-R1:8b, Qwen 2.5:8b): Mindestens 8 GB RAM, läuft auch auf CPU
- 14B-Modelle: 16 GB RAM empfohlen
- 32B-Modelle (z.B. Qwen 2.5:32b): 16–20 GB RAM, GPU mit 16+ GB VRAM ideal
- 70B-Modelle: 40+ GB RAM, definitiv GPU-Territory
Für den Homelab-Einstieg reicht ein älterer Server oder auch ein leistungsstarker Mini-PC. Mit einer Nvidia RTX 3080/4080 oder einer AMD RX 7900 XT erreichst du Geschwindigkeiten von 300+ Tokens pro Sekunde – schneller als du lesen kannst. Auf reiner CPU-Basis ist Ollama langsamer, aber durchaus nutzbar für gelegentliche Anfragen.
Typischer Homelab-Setup 2026:
- Proxmox-Server mit dedizierter GPU (GPU-Passthrough in VM)
- Oder direkt auf einem Ubuntu/Debian-Host
- 32–64 GB RAM für komfortablen Multi-Modell-Betrieb
Empfohlene GPU für KI-Homelab
ASUS ROG Strix RTX 4060 Ti OC 16GB – 16 GB VRAM ist das Einstiegsmodell für lokale LLMs ab 14B. Qwen 2.5 14B und DeepSeek-R1 14B laufen damit mit 80–120 Tokens/Sekunde.
*Preis kann variieren. Stand: Zuletzt abgerufen bei Veröffentlichung.
Empfohlenes RAM für KI-Homelab
Crucial Pro DDR5 32GB Kit 5600MHz – 32 GB sind das Minimum für komfortablen Multi-Modell-Betrieb. DDR5-5600 reduziert Ladezeiten bei großen Modellen spürbar.
*Preis kann variieren. Stand: Zuletzt abgerufen bei Veröffentlichung.
Ollama Tutorial: Installation in unter 5 Minuten
Die Installation ist denkbar einfach. Auf Linux (Ubuntu, Debian, Proxmox-VM) reicht ein einziger Befehl:
curl -fsSL https://ollama.com/install.sh | sh
Der Installer richtet Ollama automatisch als systemd-Service ein. Nach der Installation prüfst du den Status mit:
systemctl status ollama
Ollama läuft jetzt im Hintergrund und hört standardmäßig auf Port 11434. Um es aus dem lokalen Netzwerk erreichbar zu machen, editierst du die systemd-Service-Datei:
sudo systemctl edit ollama
Füge diese Zeilen ein, um Ollama netzwerkweit zugänglich zu machen:
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
Danach mit sudo systemctl restart ollama neu starten – fertig.
GPU-Beschleunigung: NVIDIA CUDA und AMD ROCm
Ollama erkennt automatisch, ob eine unterstützte GPU vorhanden ist, und nutzt sie für die Inferenz. Das macht einen enormen Unterschied: Während eine CPU typischerweise 5–15 Tokens pro Sekunde schafft, liefert eine moderne GPU 80–300+ Tokens pro Sekunde – ein Faktor von 10–20x.
NVIDIA CUDA (empfohlen für den Homelab-Einsatz)
Für NVIDIA-GPUs benötigst du den offiziellen CUDA-Treiber. Unter Ubuntu installierst du ihn so:
# NVIDIA-Treiber installieren
sudo apt install nvidia-driver-535 -y
sudo reboot
# Nach Neustart: GPU-Status prüfen
nvidia-smi
Ollama erkennt CUDA nach der Treiberinstallation automatisch. Beim nächsten Start siehst du in den systemd-Logs msg="inference compute" id=GPU0 library=cuda – dann läuft alles auf der GPU.
Im Proxmox-Setup mit GPU-Passthrough funktioniert NVIDIA-CUDA sehr zuverlässig. Wichtig: Die GPU darf nicht gleichzeitig vom Proxmox-Host genutzt werden (z.B. kein NVIDIA-Treiber auf dem Host nötig, wenn du PCI-Passthrough machst).
AMD ROCm (für AMD-GPUs der RX 6000/7000-Serie)
AMD-GPUs werden über ROCm unterstützt. Kompatibel sind die meisten RX 6000- und RX 7000-Karten:
# ROCm unter Ubuntu 22.04/24.04 installieren
wget https://repo.radeon.com/amdgpu-install/6.1/ubuntu/jammy/amdgpu-install_6.1.60100-1_all.deb
sudo dpkg -i amdgpu-install_6.1.60100-1_all.deb
sudo amdgpu-install --usecase=rocm -y
# Prüfen ob ROCm die GPU erkennt
rocm-smi
Praxis-Tipp: In Proxmox-VMs funktioniert NVIDIA-CUDA mit PCI-Passthrough deutlich einfacher als AMD ROCm. Bei AMD sind oft zusätzliche IOMMU-Konfigurationen und GFX-Firmware-Anpassungen notwendig. Auf Bare-Metal-Linux-Hosts laufen beide problemlos.
Die besten KI-Modelle 2026: DeepSeek-R1 und Qwen 2.5
Ollama unterstützt Hunderte von Modellen. Für 2026 empfehle ich vor allem zwei Serien:
DeepSeek-R1 – Der Reasoning-Spezialist
DeepSeek-R1 hat Anfang 2025 für Furore gesorgt, weil es mit westlichen Top-Modellen mithalten kann – bei einem Bruchteil der Trainingskosten. Es zeigt seinen „Denkprozess“ vor der Antwort, was besonders bei komplexen Aufgaben hilfreich ist.
# 7B-Version (empfohlen für 8 GB RAM)
ollama pull deepseek-r1:7b
# 8B-Version
ollama pull deepseek-r1:8b
# 14B für bessere Qualität (16 GB RAM)
ollama pull deepseek-r1:14b
DeepSeek-R1 ist besonders stark in:
- Mathematik und logischen Schlussfolgerungen
- Code-Analyse und Debugging
- Strukturiertem Problemlösen
Qwen 2.5 – Der Allrounder mit Top-Benchmarks
Qwen 2.5 von Alibaba ist der andere Star unter den Open-Source-Modellen. Die 32B-Variante erreicht einen beeindruckenden MMLU-Score von 83,2% – ein Benchmark, der allgemeines Wissen und Reasoning misst.
# Qwen 2.5 8B – gute Balance aus Qualität und Geschwindigkeit
ollama pull qwen2.5:8b
# Qwen 2.5 14B – deutlich besser, braucht 16 GB RAM
ollama pull qwen2.5:14b
# Qwen 2.5 32B – beste Qualität im Homelab (16-20 GB VRAM)
ollama pull qwen2.5:32b
# Qwen 2.5 Coder – spezialisiert auf Code
ollama pull qwen2.5-coder:7b
Mit ollama run qwen2.5:14b startest du direkt einen interaktiven Chat im Terminal. Für den praktischen Alltag willst du aber ein schöneres Frontend.
Open WebUI: Self-hosted AI mit ChatGPT-Feeling
Open WebUI ist ein webbasiertes Frontend für Ollama, das genauso aussieht und sich anfühlt wie ChatGPT – nur dass alles lokal läuft. Features auf einen Blick:
- Saubere Chat-Oberfläche mit Gesprächsverlauf
- Einfaches Modell-Wechseln per Dropdown
- Dokument-Upload und RAG (Retrieval-Augmented Generation)
- Multi-User-Support mit Authentifizierung
- OpenAI-API-kompatibel
Die schnellste Installation läuft über Docker:
docker run -d --network=host -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://127.0.0.1:11434 --name open-webui --restart always ghcr.io/open-webui/open-webui:main
Danach erreichst du Open WebUI unter http://deine-server-ip:8080. Beim ersten Start legst du einen Admin-Account an, dann siehst du sofort alle Ollama-Modelle in der Auswahl.
Für Proxmox-Nutzer: Open WebUI läuft ideal in einem separaten LXC-Container. Mit einem Nginx Reverse Proxy und Let’s Encrypt-Zertifikat ist die Oberfläche auch von außen sicher erreichbar.
Troubleshooting: Häufige Fehler und Lösungen
Auch wenn Ollama für seine einfache Installation bekannt ist, gibt es ein paar typische Stolpersteine – hier sind die häufigsten mit Lösung:
Port 11434 bereits belegt
Wenn Ollama beim Start mit „address already in use“ abbricht, ist Port 11434 durch einen anderen Prozess belegt:
# Prozess auf Port 11434 identifizieren
sudo lsof -i :11434
# Alternativ: Ollama auf einem anderen Port betreiben
sudo systemctl edit ollama
# Folgende Zeilen hinzufügen:
# [Service]
# Environment="OLLAMA_HOST=0.0.0.0:11435"
sudo systemctl restart ollama
Systemd-Service startet nicht / bleibt in „failed“
Die systemd-Logs zeigen den genauen Fehlergrund:
journalctl -u ollama -n 100 --no-pager
Häufigste Ursachen: fehlende Schreibrechte im Modell-Verzeichnis oder ein bereits laufender Ollama-Prozess. Mit pkill ollama und anschließendem systemctl start ollama lässt sich das meist beheben.
Modell-Download bricht ab (Timeout)
Große Modelle (14B+ haben oft 8–20 GB) können beim Download unterbrochen werden. Einfach ollama pull <modell> erneut ausführen – Ollama setzt den Download nahtlos fort und prüft bereits vorhandene Chunks.
Modell läuft auf CPU statt GPU
Mit ollama ps siehst du, ob ein laufendes Modell die GPU nutzt. Zeigt die Spalte „PROCESSOR“ den Wert „100% CPU“, liegt entweder ein Treiberproblem vor oder das Modell überschreitet den verfügbaren VRAM. In letzterem Fall wechselt Ollama automatisch auf CPU-Inferenz – probiere eine kleinere Modellgröße (z.B. :8b statt :14b).
Praktische Anwendungsfälle im Homelab-Alltag
Lokale KI ist nicht nur ein Spielzeug. Hier sind konkrete Use Cases für deinen Alltag:
Code-Review und Debugging
Du kannst Code direkt in den Chat einfügen und das Modell um Analyse bitten. Mit Qwen 2.5 Coder oder DeepSeek-R1 erhältst du detailliertes Feedback – komplett privat, ohne dass dein Code auf externen Servern landet.
Textdrafts und Dokumentation
README-Dateien, Confluence-Artikel, E-Mails – lass das Modell einen Erstentwurf erstellen, den du dann überarbeitest. Zeitersparnis: erheblich.
Dokumentenanalyse (RAG mit Open WebUI)
PDFs und andere Dokumente hochladen und das Modell dazu befragen. Ideal für Handbücher, Log-Analysen oder interne Wissensdatenbanken.
Shell-Scripting-Assistent
„Schreib mir ein Bash-Script, das alle Docker-Container mit mehr als 80% CPU-Nutzung auflistet“ – tippen und loslegen.
Datenschutz: Warum Self-hosted AI besser ist
Das ist der eigentliche Gamechanger für datenschutzbewusste Nutzer: Deine Daten bleiben bei dir.
- Keine Verbindung zu externen Servern während der Nutzung
- Kein Training mit deinen Eingaben
- DSGVO-konform für berufliche Nutzung
- Funktioniert auch ohne Internetverbindung
- Keine API-Kosten – einmal installiert, dauerhaft kostenlos
Sicher auf dein Homelab zugreifen: NordVPN
Unterwegs auf dein lokales Ollama zugreifen? NordVPN Meshnet verbindet dich sicher mit deinem Heimnetz – ohne Port-Forwarding, ohne Sicherheitsrisiko.
Besonders für Entwickler in Unternehmen relevant: Code-Reviews und interne Dokumente dürfen oft schlicht nicht auf externen KI-Servern landen. Mit lokalem Ollama ist das kein Problem mehr.
Keine eigene Hardware? Hetzner Cloud nutzen!
Wer Ollama erst ausprobieren möchte, bevor er in Hardware investiert: Hetzner Cloud bietet GPU-Server auf Stundenbasis. Ideal zum Testen ohne Upfront-Kosten – danach lohnt sich der eigene Homelab-Server.
🔔 Empfehlung: Empfohlene GPU für Ollama mit DeepSeek & Qwen → GPU für KI-Homelab (Zotac Gaming RTX 4060 Ti 16GB)
🔔 Empfehlung: Für kleinere KI-Modelle (Phi-3, Gemma 2B) geeignet → Raspberry Pi 5
Fazit: Jetzt ist der beste Zeitpunkt, KI lokal zu betreiben
Ollama hat die Einstiegshürde für selbst gehostete KI auf ein Minimum reduziert. In unter einer Stunde hast du einen vollständigen lokalen KI-Stack am Laufen – inklusive Web-Interface, mehrerer Modelle und voller Datenkontrolle.
Meine Empfehlung für den Start:
- Ollama auf deinem Homelab-Server installieren (
curl -fsSL https://ollama.com/install.sh | sh) - Mit
ollama pull qwen2.5:14boderollama pull deepseek-r1:8bein erstes Modell laden - Open WebUI per Docker einrichten
- Die ersten Experimente machen – du wirst begeistert sein
Die Modellqualität hat 2026 ein Niveau erreicht, bei dem sich lokale KI für die meisten Alltagsaufgaben nicht mehr hinter Cloud-Diensten verstecken muss. Bei null laufenden Kosten und voller Datensouveränität.
Hast du Fragen zur Einrichtung oder eigene Erfahrungen mit Ollama im Homelab? Schreib es in die Kommentare!
