KI-HAMMER im Homelab! Ollama macht deinen Server zum PRIVATEN ChatGPT! Llama 3, Mistral, Gemma – ALLES lokal, ohne dass deine Daten an externe Server gehen!

Hier der MEGA-Guide: Installation, Modelle, Absicherung und n8n-Automatisierung!

Was ist Ollama — eine kurze Einordnung

Ollama ist ein Open-Source-Tool, das Large Language Models (LLMs) auf DEINER Hardware so einfach macht wie einen Docker-Container!

Es verwaltet:

Herunterladen der Modelle!
Speichern!
Ausführen!
API-kompatible Schnittstelle zu OpenAI!

Warum lokale KI auf eigenem Server lohnt

DATENSCHUTZ: Keine Daten verlassen deinen Server!
KEINE API-Kosten: Unbegrenzt nutzen!
OFFLINE-FÄHIG: Funktioniert ohne Internet!
ANPASSBAR: Eigene Systemanweisungen!

Hardware-Check — was du wirklich brauchst

CPU-only (langsam):

Mindestens 8 GB RAM, 16 GB für größere Modelle!
5-20 Token/Sekunde!

NVIDIA GPU (schnell):

GPU mit 8+ GB VRAM für 7B-Modelle!
50-100 Token/Sekunde!

Apple Silicon (M1-M4):

Hervorragende Performance durch Unified Memory!

Empfohlene Modelle nach Hardware

4 GB RAM: phi3:mini (3.8B)!
8 GB RAM: llama3.2 (3B), mistral (7B)!
16 GB RAM: llama3.1 (8B), gemma2 (9B)!
32 GB RAM: llama3.1 (70B quantisiert)!

Schritt 1: Ollama installieren

Linux (empfohlen)

curl -fsSL https://ollama.com/install.sh | sh

Ollama läuft automatisch als systemd-Service unter http://localhost:11434!

macOS

Desktop: App-Paket von ollama.com herunterladen!

Homebrew:

brew install ollama
ollama serve &

Docker (für Proxmox/Container)

docker run -d -v ollama:/root/.ollama -p 11434:11434 \
  --name ollama ollama/ollama

Mit NVIDIA GPU: füge --gpus=all hinzu!

Schritt 2: Erstes Modell laden und testen

# Modell herunterladen und starten
ollama run llama3.2

# Oder direktes Laden ohne Start
ollama pull mistral:7b

# Alle Modelle anzeigen
ollama list

ZACK! Chatten direkt im Terminal!

Schritt 3: Ollama im LAN bereitstellen

Option 1: UFW-Firewall

Nur lokales Netz erlauben:

sudo ufw allow from 192.168.1.0/24 to any port 11434
sudo ufw reload

Option 2: Tailscale

Über Mesh-VPN zugreifen – keine offenen Ports! Installiere Tailscale auf Server und Client, dann:

# In der Ollama-Konfig
Environment="OLLAMA_HOST=0.0.0.0:11434"

Option 3: Nginx Reverse Proxy mit HTTPS

server {
    listen 443 ssl;
    server_name ollama.deinedomain.de;

    location / {
        proxy_pass http://localhost:11434;
        proxy_set_header Host $host;
    }
}

Quantisierung verstehen — Q4_0, Q4_K_M und Q8_0

Die Quantisierungs-Level bestimmen Qualität vs. Größe:

Q4_0: Schnellste, kleinste Variante (~ 4 GB für 7B-Modell)!
Q4_K_M: Bessere Qualität, ähnliche Größe – mein Favorit!
Q5_K_M: Noch bessere Qualität, ~5 GB!
Q8_0: Nahezu Originalqualität, ~7.5 GB!
F16: Volle Präzision, ~15 GB!

Für Homelab-Einsteiger: Q4_K_M ist meistens optimal!

Schritt 4: OpenAI-kompatible API einbinden

Ollama bietet eine OpenAI-kompatible API! Das bedeutet:

ChatGPT-Clients können SOFORT auf deinen Ollama zeigen!
n8n-Workflows funktionieren nahtlos!
Home Assistant Assist kann Ollama nutzen!
Obsidian-Plugins mit KI-Features!

Beispiel API-Aufruf

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2",
    "messages": [{"role": "user", "content": "Erkläre Docker in 3 Sätzen"}]
  }'

Schritt 5: Open WebUI als Frontend

Für ChatGPT-Feeling: Open WebUI als Frontend!

docker run -d -p 3000:8080 \
  --gpus all \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:cuda

Web-UI unter http://server-ip:3000 – moderner Chat mit deinem lokalen Ollama!

n8n-Workflows mit Ollama bauen

n8n kann Ollama direkt ansprechen! Workflows wie:

RSS-Feed → Ollama-Zusammenfassung → E-Mail!
Nextcloud-Upload → Ollama-Tagging → Rück-Sync!
GitHub-Issue → Ollama-Klassifikation → Slack-Benachrichtigung!

Node: „OpenAI“ mit Custom-URL auf deinen Ollama!

Tipps aus dem Server-Alltag

Meine Top 5 Optimierungen:

GPU-Auslastung mit nvidia-smi überwachen!
Modell-Cache regelmäßig aufräumen (ollama rm)!
Konkurrierende Anfragen begrenzen (OLLAMA_NUM_PARALLEL)!
Logging via systemd!
Regelmäßige Updates – Ollama entwickelt sich BRUTAL schnell!

Fazit — und welche Erweiterungen sich lohnen

Keine Frage: Mit Ollama betreibst du DEINEN EIGENEN ChatGPT – kostenlos, datenschutzfreundlich, unbegrenzt!

Mein Tipp: HEUTE Ollama installieren, morgen erste Modelle testen, übermorgen Open WebUI dazu! In einer Woche bist du unabhängig von OpenAI!

Auf Lapalutschi.de kommen bald Deep-Dives zu Fine-Tuning, Custom-Modellen und RAG-Setups! Bleib dran!

Ollama auf eigenem Server — der private ChatGPT-Klon im Detail