KI-HAMMER im Homelab! Ollama macht deinen Server zum PRIVATEN ChatGPT! Llama 3, Mistral, Gemma – ALLES lokal, ohne dass deine Daten an externe Server gehen!
Hier der MEGA-Guide: Installation, Modelle, Absicherung und n8n-Automatisierung!
Was ist Ollama — eine kurze Einordnung
Ollama ist ein Open-Source-Tool, das Large Language Models (LLMs) auf DEINER Hardware so einfach macht wie einen Docker-Container!
Es verwaltet:
- Herunterladen der Modelle!
- Speichern!
- Ausführen!
- API-kompatible Schnittstelle zu OpenAI!
Warum lokale KI auf eigenem Server lohnt
- DATENSCHUTZ: Keine Daten verlassen deinen Server!
- KEINE API-Kosten: Unbegrenzt nutzen!
- OFFLINE-FÄHIG: Funktioniert ohne Internet!
- ANPASSBAR: Eigene Systemanweisungen!
Hardware-Check — was du wirklich brauchst
CPU-only (langsam):
- Mindestens 8 GB RAM, 16 GB für größere Modelle!
- 5-20 Token/Sekunde!
NVIDIA GPU (schnell):
- GPU mit 8+ GB VRAM für 7B-Modelle!
- 50-100 Token/Sekunde!
Apple Silicon (M1-M4):
- Hervorragende Performance durch Unified Memory!
Empfohlene Modelle nach Hardware
- 4 GB RAM:
phi3:mini(3.8B)! - 8 GB RAM:
llama3.2(3B),mistral(7B)! - 16 GB RAM:
llama3.1(8B),gemma2(9B)! - 32 GB RAM:
llama3.1(70B quantisiert)!
Schritt 1: Ollama installieren
Linux (empfohlen)
curl -fsSL https://ollama.com/install.sh | sh
Ollama läuft automatisch als systemd-Service unter http://localhost:11434!
macOS
Desktop: App-Paket von ollama.com herunterladen!
Homebrew:
brew install ollama
ollama serve &
Docker (für Proxmox/Container)
docker run -d -v ollama:/root/.ollama -p 11434:11434 \
--name ollama ollama/ollama
Mit NVIDIA GPU: füge --gpus=all hinzu!
Schritt 2: Erstes Modell laden und testen
# Modell herunterladen und starten
ollama run llama3.2
# Oder direktes Laden ohne Start
ollama pull mistral:7b
# Alle Modelle anzeigen
ollama list
ZACK! Chatten direkt im Terminal!
Schritt 3: Ollama im LAN bereitstellen
Option 1: UFW-Firewall
Nur lokales Netz erlauben:
sudo ufw allow from 192.168.1.0/24 to any port 11434
sudo ufw reload
Option 2: Tailscale
Über Mesh-VPN zugreifen – keine offenen Ports! Installiere Tailscale auf Server und Client, dann:
# In der Ollama-Konfig
Environment="OLLAMA_HOST=0.0.0.0:11434"
Option 3: Nginx Reverse Proxy mit HTTPS
server {
listen 443 ssl;
server_name ollama.deinedomain.de;
location / {
proxy_pass http://localhost:11434;
proxy_set_header Host $host;
}
}
Quantisierung verstehen — Q4_0, Q4_K_M und Q8_0
Die Quantisierungs-Level bestimmen Qualität vs. Größe:
- Q4_0: Schnellste, kleinste Variante (~ 4 GB für 7B-Modell)!
- Q4_K_M: Bessere Qualität, ähnliche Größe – mein Favorit!
- Q5_K_M: Noch bessere Qualität, ~5 GB!
- Q8_0: Nahezu Originalqualität, ~7.5 GB!
- F16: Volle Präzision, ~15 GB!
Für Homelab-Einsteiger: Q4_K_M ist meistens optimal!
Schritt 4: OpenAI-kompatible API einbinden
Ollama bietet eine OpenAI-kompatible API! Das bedeutet:
- ChatGPT-Clients können SOFORT auf deinen Ollama zeigen!
- n8n-Workflows funktionieren nahtlos!
- Home Assistant Assist kann Ollama nutzen!
- Obsidian-Plugins mit KI-Features!
Beispiel API-Aufruf
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "llama3.2",
"messages": [{"role": "user", "content": "Erkläre Docker in 3 Sätzen"}]
}'
Schritt 5: Open WebUI als Frontend
Für ChatGPT-Feeling: Open WebUI als Frontend!
docker run -d -p 3000:8080 \
--gpus all \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:cuda
Web-UI unter http://server-ip:3000 – moderner Chat mit deinem lokalen Ollama!
n8n-Workflows mit Ollama bauen
n8n kann Ollama direkt ansprechen! Workflows wie:
- RSS-Feed → Ollama-Zusammenfassung → E-Mail!
- Nextcloud-Upload → Ollama-Tagging → Rück-Sync!
- GitHub-Issue → Ollama-Klassifikation → Slack-Benachrichtigung!
Node: „OpenAI“ mit Custom-URL auf deinen Ollama!
Tipps aus dem Server-Alltag
Meine Top 5 Optimierungen:
- GPU-Auslastung mit
nvidia-smiüberwachen! - Modell-Cache regelmäßig aufräumen (
ollama rm)! - Konkurrierende Anfragen begrenzen (
OLLAMA_NUM_PARALLEL)! - Logging via systemd!
- Regelmäßige Updates – Ollama entwickelt sich BRUTAL schnell!
Fazit — und welche Erweiterungen sich lohnen
Keine Frage: Mit Ollama betreibst du DEINEN EIGENEN ChatGPT – kostenlos, datenschutzfreundlich, unbegrenzt!
Mein Tipp: HEUTE Ollama installieren, morgen erste Modelle testen, übermorgen Open WebUI dazu! In einer Woche bist du unabhängig von OpenAI!
Auf Lapalutschi.de kommen bald Deep-Dives zu Fine-Tuning, Custom-Modellen und RAG-Setups! Bleib dran!
Verwandte Tutorials auf Lapalutschi.de
Größeres Bild gefragt? Wer den kompletten Self-Host-KI-Bauplan sucht — mit Hardware, Modell-Auswahl, Quantisierung und Workflow-Integration auf einer Seite — landet im Self-Hosted-KI-Komplettguide richtig.
Erst die Homelab-Basis? Wer Ollama als Server-Dienst plant, sollte vorher die Hardware- und Netzwerk-Basis stabil haben. Der Homelab-Anfänger-Komplettguide erklärt das Drumherum.
- ChatGPT-Ersatz mit Ollama und Open WebUI — die Web-Oberfläche für deinen Ollama-Server.
- Lokale KI mit Ollama — der Schnellstart-Guide zur lokalen KI.
- LLaMA 4 lokal betreiben — ein konkretes 70B-Modell als Beispiel.