KI lokal mit Ollama: DeepSeek & Qwen im Homelab

Stell dir vor, du hast deinen eigenen privaten ChatGPT-Ersatz – vollständig offline, auf deiner eigenen Hardware, ohne monatliche Kosten und ohne dass irgendeine KI-Firma deine Daten bekommt. Klingt gut? Mit Ollama ist das heute Realität, und in diesem Tutorial zeige ich dir, wie du KI lokal betreiben kannst – mit modernen Modellen wie DeepSeek-R1 und Qwen 2.5 auf deinem Homelab-Server.

Hinweis: Dieser Artikel enthält Affiliate-Links. Wenn du über diese Links einkaufst, erhalten wir eine kleine Provision – für dich entstehen keine Mehrkosten. Mehr erfahren

Was ist Ollama und warum boomt es gerade?

Ollama ist ein Open-Source-Tool, das es extrem einfach macht, große Sprachmodelle (LLMs) lokal auf deinem Rechner oder Server zu betreiben. Kein kompliziertes Python-Environment, kein Docker-Chaos – einfach installieren, Modell laden, loslegen.

Die Zahlen sprechen für sich: Im ersten Quartal 2026 verzeichnet Ollama 52 Millionen monatliche Downloads. Das ist kein Nischen-Experiment mehr, das ist Mainstream-Software für alle, die ihre KI selbst hosten wollen.

Der Grundgedanke ist simpel: Ollama lädt das gewünschte Sprachmodell herunter, verwaltet es lokal und stellt eine REST-API bereit – kompatibel mit der OpenAI-API. Das bedeutet, du kannst viele Anwendungen, die eigentlich für OpenAI gebaut wurden, einfach auf dein lokales Modell umleiten.

Hardware-Anforderungen: Was brauche ich für KI lokal betreiben?

Eine der häufigsten Fragen: Welche Hardware brauche ich? Hier ist die kurze Antwort:

8B-Modelle (z.B. DeepSeek-R1:8b, Qwen 2.5:8b): Mindestens 8 GB RAM, läuft auch auf CPU
14B-Modelle: 16 GB RAM empfohlen
32B-Modelle (z.B. Qwen 2.5:32b): 16–20 GB RAM, GPU mit 16+ GB VRAM ideal
70B-Modelle: 40+ GB RAM, definitiv GPU-Territory

Für den Homelab-Einstieg reicht ein älterer Server oder auch ein leistungsstarker Mini-PC. Mit einer Nvidia RTX 3080/4080 oder einer AMD RX 7900 XT erreichst du Geschwindigkeiten von 300+ Tokens pro Sekunde – schneller als du lesen kannst. Auf reiner CPU-Basis ist Ollama langsamer, aber durchaus nutzbar für gelegentliche Anfragen.

Typischer Homelab-Setup 2026:

Proxmox-Server mit dedizierter GPU (GPU-Passthrough in VM)
Oder direkt auf einem Ubuntu/Debian-Host
32–64 GB RAM für komfortablen Multi-Modell-Betrieb

Empfohlene GPU für KI-Homelab

ASUS ROG Strix RTX 4060 Ti OC 16GB – 16 GB VRAM ist das Einstiegsmodell für lokale LLMs ab 14B. Qwen 2.5 14B und DeepSeek-R1 14B laufen damit mit 80–120 Tokens/Sekunde.

*Preis kann variieren. Stand: Zuletzt abgerufen bei Veröffentlichung.

Empfohlenes RAM für KI-Homelab

Crucial Pro DDR5 32GB Kit 5600MHz – 32 GB sind das Minimum für komfortablen Multi-Modell-Betrieb. DDR5-5600 reduziert Ladezeiten bei großen Modellen spürbar.

*Preis kann variieren. Stand: Zuletzt abgerufen bei Veröffentlichung.

Ollama Tutorial: Installation in unter 5 Minuten

Die Installation ist denkbar einfach. Auf Linux (Ubuntu, Debian, Proxmox-VM) reicht ein einziger Befehl:

curl -fsSL https://ollama.com/install.sh | sh

Der Installer richtet Ollama automatisch als systemd-Service ein. Nach der Installation prüfst du den Status mit:

systemctl status ollama

Ollama läuft jetzt im Hintergrund und hört standardmäßig auf Port 11434. Um es aus dem lokalen Netzwerk erreichbar zu machen, editierst du die systemd-Service-Datei:

sudo systemctl edit ollama

Füge diese Zeilen ein, um Ollama netzwerkweit zugänglich zu machen:

[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"

Danach mit sudo systemctl restart ollama neu starten – fertig.

GPU-Beschleunigung: NVIDIA CUDA und AMD ROCm

Ollama erkennt automatisch, ob eine unterstützte GPU vorhanden ist, und nutzt sie für die Inferenz. Das macht einen enormen Unterschied: Während eine CPU typischerweise 5–15 Tokens pro Sekunde schafft, liefert eine moderne GPU 80–300+ Tokens pro Sekunde – ein Faktor von 10–20x.

NVIDIA CUDA (empfohlen für den Homelab-Einsatz)

Für NVIDIA-GPUs benötigst du den offiziellen CUDA-Treiber. Unter Ubuntu installierst du ihn so:

# NVIDIA-Treiber installieren
sudo apt install nvidia-driver-535 -y
sudo reboot

# Nach Neustart: GPU-Status prüfen
nvidia-smi

Ollama erkennt CUDA nach der Treiberinstallation automatisch. Beim nächsten Start siehst du in den systemd-Logs msg="inference compute" id=GPU0 library=cuda – dann läuft alles auf der GPU.

Im Proxmox-Setup mit GPU-Passthrough funktioniert NVIDIA-CUDA sehr zuverlässig. Wichtig: Die GPU darf nicht gleichzeitig vom Proxmox-Host genutzt werden (z.B. kein NVIDIA-Treiber auf dem Host nötig, wenn du PCI-Passthrough machst).

AMD ROCm (für AMD-GPUs der RX 6000/7000-Serie)

AMD-GPUs werden über ROCm unterstützt. Kompatibel sind die meisten RX 6000- und RX 7000-Karten:

# ROCm unter Ubuntu 22.04/24.04 installieren
wget https://repo.radeon.com/amdgpu-install/6.1/ubuntu/jammy/amdgpu-install_6.1.60100-1_all.deb
sudo dpkg -i amdgpu-install_6.1.60100-1_all.deb
sudo amdgpu-install --usecase=rocm -y

# Prüfen ob ROCm die GPU erkennt
rocm-smi

Praxis-Tipp: In Proxmox-VMs funktioniert NVIDIA-CUDA mit PCI-Passthrough deutlich einfacher als AMD ROCm. Bei AMD sind oft zusätzliche IOMMU-Konfigurationen und GFX-Firmware-Anpassungen notwendig. Auf Bare-Metal-Linux-Hosts laufen beide problemlos.

Die besten KI-Modelle 2026: DeepSeek-R1 und Qwen 2.5

Ollama unterstützt Hunderte von Modellen. Für 2026 empfehle ich vor allem zwei Serien:

DeepSeek-R1 – Der Reasoning-Spezialist

DeepSeek-R1 hat Anfang 2025 für Furore gesorgt, weil es mit westlichen Top-Modellen mithalten kann – bei einem Bruchteil der Trainingskosten. Es zeigt seinen „Denkprozess“ vor der Antwort, was besonders bei komplexen Aufgaben hilfreich ist.

# 7B-Version (empfohlen für 8 GB RAM)
ollama pull deepseek-r1:7b

# 8B-Version
ollama pull deepseek-r1:8b

# 14B für bessere Qualität (16 GB RAM)
ollama pull deepseek-r1:14b

DeepSeek-R1 ist besonders stark in:

Mathematik und logischen Schlussfolgerungen
Code-Analyse und Debugging
Strukturiertem Problemlösen

Qwen 2.5 – Der Allrounder mit Top-Benchmarks

Qwen 2.5 von Alibaba ist der andere Star unter den Open-Source-Modellen. Die 32B-Variante erreicht einen beeindruckenden MMLU-Score von 83,2% – ein Benchmark, der allgemeines Wissen und Reasoning misst.

# Qwen 2.5 8B – gute Balance aus Qualität und Geschwindigkeit
ollama pull qwen2.5:8b

# Qwen 2.5 14B – deutlich besser, braucht 16 GB RAM
ollama pull qwen2.5:14b

# Qwen 2.5 32B – beste Qualität im Homelab (16-20 GB VRAM)
ollama pull qwen2.5:32b

# Qwen 2.5 Coder – spezialisiert auf Code
ollama pull qwen2.5-coder:7b

Mit ollama run qwen2.5:14b startest du direkt einen interaktiven Chat im Terminal. Für den praktischen Alltag willst du aber ein schöneres Frontend.

Open WebUI: Self-hosted AI mit ChatGPT-Feeling

Open WebUI ist ein webbasiertes Frontend für Ollama, das genauso aussieht und sich anfühlt wie ChatGPT – nur dass alles lokal läuft. Features auf einen Blick:

Saubere Chat-Oberfläche mit Gesprächsverlauf
Einfaches Modell-Wechseln per Dropdown
Dokument-Upload und RAG (Retrieval-Augmented Generation)
Multi-User-Support mit Authentifizierung
OpenAI-API-kompatibel

Die schnellste Installation läuft über Docker:

docker run -d   --network=host   -v open-webui:/app/backend/data   -e OLLAMA_BASE_URL=http://127.0.0.1:11434   --name open-webui   --restart always   ghcr.io/open-webui/open-webui:main

Danach erreichst du Open WebUI unter http://deine-server-ip:8080. Beim ersten Start legst du einen Admin-Account an, dann siehst du sofort alle Ollama-Modelle in der Auswahl.

Für Proxmox-Nutzer: Open WebUI läuft ideal in einem separaten LXC-Container. Mit einem Nginx Reverse Proxy und Let’s Encrypt-Zertifikat ist die Oberfläche auch von außen sicher erreichbar.

Troubleshooting: Häufige Fehler und Lösungen

Auch wenn Ollama für seine einfache Installation bekannt ist, gibt es ein paar typische Stolpersteine – hier sind die häufigsten mit Lösung:

Port 11434 bereits belegt

Wenn Ollama beim Start mit „address already in use“ abbricht, ist Port 11434 durch einen anderen Prozess belegt:

# Prozess auf Port 11434 identifizieren
sudo lsof -i :11434

# Alternativ: Ollama auf einem anderen Port betreiben
sudo systemctl edit ollama
# Folgende Zeilen hinzufügen:
# [Service]
# Environment="OLLAMA_HOST=0.0.0.0:11435"
sudo systemctl restart ollama

Systemd-Service startet nicht / bleibt in „failed“

Die systemd-Logs zeigen den genauen Fehlergrund:

journalctl -u ollama -n 100 --no-pager

Häufigste Ursachen: fehlende Schreibrechte im Modell-Verzeichnis oder ein bereits laufender Ollama-Prozess. Mit pkill ollama und anschließendem systemctl start ollama lässt sich das meist beheben.

Modell-Download bricht ab (Timeout)

Große Modelle (14B+ haben oft 8–20 GB) können beim Download unterbrochen werden. Einfach ollama pull <modell> erneut ausführen – Ollama setzt den Download nahtlos fort und prüft bereits vorhandene Chunks.

Modell läuft auf CPU statt GPU

Mit ollama ps siehst du, ob ein laufendes Modell die GPU nutzt. Zeigt die Spalte „PROCESSOR“ den Wert „100% CPU“, liegt entweder ein Treiberproblem vor oder das Modell überschreitet den verfügbaren VRAM. In letzterem Fall wechselt Ollama automatisch auf CPU-Inferenz – probiere eine kleinere Modellgröße (z.B. :8b statt :14b).

Praktische Anwendungsfälle im Homelab-Alltag

Lokale KI ist nicht nur ein Spielzeug. Hier sind konkrete Use Cases für deinen Alltag:

Code-Review und Debugging

Du kannst Code direkt in den Chat einfügen und das Modell um Analyse bitten. Mit Qwen 2.5 Coder oder DeepSeek-R1 erhältst du detailliertes Feedback – komplett privat, ohne dass dein Code auf externen Servern landet.

Textdrafts und Dokumentation

README-Dateien, Confluence-Artikel, E-Mails – lass das Modell einen Erstentwurf erstellen, den du dann überarbeitest. Zeitersparnis: erheblich.

Dokumentenanalyse (RAG mit Open WebUI)

PDFs und andere Dokumente hochladen und das Modell dazu befragen. Ideal für Handbücher, Log-Analysen oder interne Wissensdatenbanken.

Shell-Scripting-Assistent

„Schreib mir ein Bash-Script, das alle Docker-Container mit mehr als 80% CPU-Nutzung auflistet“ – tippen und loslegen.

Datenschutz: Warum Self-hosted AI besser ist

Das ist der eigentliche Gamechanger für datenschutzbewusste Nutzer: Deine Daten bleiben bei dir.

Keine Verbindung zu externen Servern während der Nutzung
Kein Training mit deinen Eingaben
DSGVO-konform für berufliche Nutzung
Funktioniert auch ohne Internetverbindung
Keine API-Kosten – einmal installiert, dauerhaft kostenlos

Sicher auf dein Homelab zugreifen: NordVPN

Unterwegs auf dein lokales Ollama zugreifen? NordVPN Meshnet verbindet dich sicher mit deinem Heimnetz – ohne Port-Forwarding, ohne Sicherheitsrisiko.

Besonders für Entwickler in Unternehmen relevant: Code-Reviews und interne Dokumente dürfen oft schlicht nicht auf externen KI-Servern landen. Mit lokalem Ollama ist das kein Problem mehr.

Keine eigene Hardware? Hetzner Cloud nutzen!

Wer Ollama erst ausprobieren möchte, bevor er in Hardware investiert: Hetzner Cloud bietet GPU-Server auf Stundenbasis. Ideal zum Testen ohne Upfront-Kosten – danach lohnt sich der eigene Homelab-Server.

🔔 Empfehlung: Empfohlene GPU für Ollama mit DeepSeek & Qwen → GPU für KI-Homelab (Zotac Gaming RTX 4060 Ti 16GB)

🔔 Empfehlung: Für kleinere KI-Modelle (Phi-3, Gemma 2B) geeignet → Raspberry Pi 5

Fazit: Jetzt ist der beste Zeitpunkt, KI lokal zu betreiben

Ollama hat die Einstiegshürde für selbst gehostete KI auf ein Minimum reduziert. In unter einer Stunde hast du einen vollständigen lokalen KI-Stack am Laufen – inklusive Web-Interface, mehrerer Modelle und voller Datenkontrolle.

Meine Empfehlung für den Start:

Ollama auf deinem Homelab-Server installieren (curl -fsSL https://ollama.com/install.sh | sh)
Mit ollama pull qwen2.5:14b oder ollama pull deepseek-r1:8b ein erstes Modell laden
Open WebUI per Docker einrichten
Die ersten Experimente machen – du wirst begeistert sein

Die Modellqualität hat 2026 ein Niveau erreicht, bei dem sich lokale KI für die meisten Alltagsaufgaben nicht mehr hinter Cloud-Diensten verstecken muss. Bei null laufenden Kosten und voller Datensouveränität.

Hast du Fragen zur Einrichtung oder eigene Erfahrungen mit Ollama im Homelab? Schreib es in die Kommentare!

KI lokal betreiben mit Ollama – DeepSeek & Qwen 2.5 im Homelab (2026)

Was ist Ollama und warum boomt es gerade?

Hardware-Anforderungen: Was brauche ich für KI lokal betreiben?

Empfohlene GPU für KI-Homelab

Empfohlenes RAM für KI-Homelab

Ollama Tutorial: Installation in unter 5 Minuten

GPU-Beschleunigung: NVIDIA CUDA und AMD ROCm

NVIDIA CUDA (empfohlen für den Homelab-Einsatz)

AMD ROCm (für AMD-GPUs der RX 6000/7000-Serie)

Die besten KI-Modelle 2026: DeepSeek-R1 und Qwen 2.5

DeepSeek-R1 – Der Reasoning-Spezialist

Qwen 2.5 – Der Allrounder mit Top-Benchmarks

Open WebUI: Self-hosted AI mit ChatGPT-Feeling

Troubleshooting: Häufige Fehler und Lösungen

Port 11434 bereits belegt

Systemd-Service startet nicht / bleibt in „failed“

Modell-Download bricht ab (Timeout)

Modell läuft auf CPU statt GPU

Praktische Anwendungsfälle im Homelab-Alltag

Code-Review und Debugging

Textdrafts und Dokumentation

Dokumentenanalyse (RAG mit Open WebUI)

Shell-Scripting-Assistent

Datenschutz: Warum Self-hosted AI besser ist

Sicher auf dein Homelab zugreifen: NordVPN

Keine eigene Hardware? Hetzner Cloud nutzen!

Fazit: Jetzt ist der beste Zeitpunkt, KI lokal zu betreiben

CISA-Warnung: Apache ActiveMQ CVE-2026-34197 aktiv ausgenutzt – Jetzt sofort patchen!

Docker Tutorial für Einsteiger: Container verstehen und nutzen (2026)

TrueNAS Scale Tutorial: Netzwerk-Storage selbst aufbauen

Backup-Strategie 2026: Die 3-2-1-Regel richtig umsetzen

BlueHammer, RedSun & UnDefend: Drei Microsoft-Defender-Zero-Days – Was du jetzt tun musst

Git Tutorial Deutsch: Versionskontrolle für Einsteiger (2026)

Schreibe einen Kommentar Antwort abbrechen

Was ist Ollama und warum boomt es gerade?

Hardware-Anforderungen: Was brauche ich für KI lokal betreiben?

Empfohlene GPU für KI-Homelab

Empfohlenes RAM für KI-Homelab

Ollama Tutorial: Installation in unter 5 Minuten

GPU-Beschleunigung: NVIDIA CUDA und AMD ROCm

NVIDIA CUDA (empfohlen für den Homelab-Einsatz)

AMD ROCm (für AMD-GPUs der RX 6000/7000-Serie)

Die besten KI-Modelle 2026: DeepSeek-R1 und Qwen 2.5

DeepSeek-R1 – Der Reasoning-Spezialist

Qwen 2.5 – Der Allrounder mit Top-Benchmarks

Open WebUI: Self-hosted AI mit ChatGPT-Feeling

Troubleshooting: Häufige Fehler und Lösungen

Port 11434 bereits belegt

Systemd-Service startet nicht / bleibt in „failed“

Modell-Download bricht ab (Timeout)

Modell läuft auf CPU statt GPU

Praktische Anwendungsfälle im Homelab-Alltag

Code-Review und Debugging

Textdrafts und Dokumentation

Dokumentenanalyse (RAG mit Open WebUI)

Shell-Scripting-Assistent

Datenschutz: Warum Self-hosted AI besser ist

Sicher auf dein Homelab zugreifen: NordVPN

Keine eigene Hardware? Hetzner Cloud nutzen!

Fazit: Jetzt ist der beste Zeitpunkt, KI lokal zu betreiben

Ähnliche Beiträge

Schreibe einen Kommentar Antwort abbrechen