#IT-Tutorials · 4 Min. Lesezeit · Tim Rinkel

Ollama auf eigenem Server — der private ChatGPT-Klon im Detail

Ollama einrichten: Lokale KI-Modelle auf deinem eigenen Server betreiben. LLMs wie Llama, Mistral und Gemma ohne Cloud-Abhängigkeit nutzen.

Ollama auf eigenem Server — der private ChatGPT-Klon im Detail

KI-HAMMER im Homelab! Ollama macht deinen Server zum PRIVATEN ChatGPT! Llama 3, Mistral, GemmaALLES lokal, ohne dass deine Daten an externe Server gehen!

Hier der MEGA-Guide: Installation, Modelle, Absicherung und n8n-Automatisierung!

Was ist Ollama — eine kurze Einordnung

Ollama ist ein Open-Source-Tool, das Large Language Models (LLMs) auf DEINER Hardware so einfach macht wie einen Docker-Container!

Es verwaltet:

  • Herunterladen der Modelle!
  • Speichern!
  • Ausführen!
  • API-kompatible Schnittstelle zu OpenAI!

Warum lokale KI auf eigenem Server lohnt

  • DATENSCHUTZ: Keine Daten verlassen deinen Server!
  • KEINE API-Kosten: Unbegrenzt nutzen!
  • OFFLINE-FÄHIG: Funktioniert ohne Internet!
  • ANPASSBAR: Eigene Systemanweisungen!

Hardware-Check — was du wirklich brauchst

CPU-only (langsam):

  • Mindestens 8 GB RAM, 16 GB für größere Modelle!
  • 5-20 Token/Sekunde!

NVIDIA GPU (schnell):

  • GPU mit 8+ GB VRAM für 7B-Modelle!
  • 50-100 Token/Sekunde!

Apple Silicon (M1-M4):

  • Hervorragende Performance durch Unified Memory!

Empfohlene Modelle nach Hardware

  • 4 GB RAM: phi3:mini (3.8B)!
  • 8 GB RAM: llama3.2 (3B), mistral (7B)!
  • 16 GB RAM: llama3.1 (8B), gemma2 (9B)!
  • 32 GB RAM: llama3.1 (70B quantisiert)!

Schritt 1: Ollama installieren

Linux (empfohlen)

curl -fsSL https://ollama.com/install.sh | sh

Ollama läuft automatisch als systemd-Service unter http://localhost:11434!

macOS

Desktop: App-Paket von ollama.com herunterladen!

Homebrew:

brew install ollama
ollama serve &

Docker (für Proxmox/Container)

docker run -d -v ollama:/root/.ollama -p 11434:11434 \
  --name ollama ollama/ollama

Mit NVIDIA GPU: füge --gpus=all hinzu!

Schritt 2: Erstes Modell laden und testen

# Modell herunterladen und starten
ollama run llama3.2

# Oder direktes Laden ohne Start
ollama pull mistral:7b

# Alle Modelle anzeigen
ollama list

ZACK! Chatten direkt im Terminal!

Schritt 3: Ollama im LAN bereitstellen

Option 1: UFW-Firewall

Nur lokales Netz erlauben:

sudo ufw allow from 192.168.1.0/24 to any port 11434
sudo ufw reload

Option 2: Tailscale

Über Mesh-VPN zugreifenkeine offenen Ports! Installiere Tailscale auf Server und Client, dann:

# In der Ollama-Konfig
Environment="OLLAMA_HOST=0.0.0.0:11434"

Option 3: Nginx Reverse Proxy mit HTTPS

NGINX
server {
    listen 443 ssl;
    server_name ollama.deinedomain.de;

    location / {
        proxy_pass http://localhost:11434;
        proxy_set_header Host $host;
    }
}

Quantisierung verstehen — Q4_0, Q4_K_M und Q8_0

Die Quantisierungs-Level bestimmen Qualität vs. Größe:

  • Q4_0: Schnellste, kleinste Variante (~ 4 GB für 7B-Modell)!
  • Q4_K_M: Bessere Qualität, ähnliche Größe – mein Favorit!
  • Q5_K_M: Noch bessere Qualität, ~5 GB!
  • Q8_0: Nahezu Originalqualität, ~7.5 GB!
  • F16: Volle Präzision, ~15 GB!

Für Homelab-Einsteiger: Q4_K_M ist meistens optimal!

Schritt 4: OpenAI-kompatible API einbinden

Ollama bietet eine OpenAI-kompatible API! Das bedeutet:

  • ChatGPT-Clients können SOFORT auf deinen Ollama zeigen!
  • n8n-Workflows funktionieren nahtlos!
  • Home Assistant Assist kann Ollama nutzen!
  • Obsidian-Plugins mit KI-Features!

Beispiel API-Aufruf

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2",
    "messages": [{"role": "user", "content": "Erkläre Docker in 3 Sätzen"}]
  }'

Schritt 5: Open WebUI als Frontend

Für ChatGPT-Feeling: Open WebUI als Frontend!

docker run -d -p 3000:8080 \
  --gpus all \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:cuda

Web-UI unter http://server-ip:3000moderner Chat mit deinem lokalen Ollama!

n8n-Workflows mit Ollama bauen

n8n kann Ollama direkt ansprechen! Workflows wie:

  • RSS-Feed → Ollama-Zusammenfassung → E-Mail!
  • Nextcloud-Upload → Ollama-Tagging → Rück-Sync!
  • GitHub-Issue → Ollama-Klassifikation → Slack-Benachrichtigung!

Node: „OpenAI“ mit Custom-URL auf deinen Ollama!

Tipps aus dem Server-Alltag

Meine Top 5 Optimierungen:

  1. GPU-Auslastung mit nvidia-smi überwachen!
  2. Modell-Cache regelmäßig aufräumen (ollama rm)!
  3. Konkurrierende Anfragen begrenzen (OLLAMA_NUM_PARALLEL)!
  4. Logging via systemd!
  5. Regelmäßige Updates – Ollama entwickelt sich BRUTAL schnell!

Fazit — und welche Erweiterungen sich lohnen

Keine Frage: Mit Ollama betreibst du DEINEN EIGENEN ChatGPTkostenlos, datenschutzfreundlich, unbegrenzt!

Mein Tipp: HEUTE Ollama installieren, morgen erste Modelle testen, übermorgen Open WebUI dazu! In einer Woche bist du unabhängig von OpenAI!

Auf Lapalutschi.de kommen bald Deep-Dives zu Fine-Tuning, Custom-Modellen und RAG-Setups! Bleib dran!

Verwandte Tutorials auf Lapalutschi.de

Kommentar hinterlassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert