Self-Hosted KI 2026 — der Komplettguide für deine eigene KI ohne Cloud

Taxonomic-Silence-Plate Nr. 61: ein hierarchischer Baum aus mehreren Knoten-Ebenen mit Iron-Oxide-Akzent und Legende I bis V, symbolisiert die Themen-Taxonomie der Self-Hosted-KI auf Lapalutschi.de.

Hinweis: Dieser Beitrag enthält Affiliate-Links (mit * gekennzeichnet). Kaufst du über einen dieser Links, erhalten wir eine kleine Provision — für dich ändert sich der Preis nicht. Hardware wird vor jeder Empfehlung mindestens vier Wochen im eigenen Homelab getestet.

Eine eigene KI zu Hause laufen lassen — ohne Cloud, ohne API-Tokens, ohne Datenschutz-Kompromisse — war 2023 noch Forschungs-Disziplin. 2026 ist es ein machbares Wochenend-Projekt. Llama, DeepSeek, Qwen und Mixtral laufen auf gebrauchten Mini-PCs schneller als ChatGPT 3.5 vor zwei Jahren, und die Werkzeuge dafür sind kostenlos und gut dokumentiert. Diese Pillar-Page ist die ehrliche Einstiegshilfe: Was du brauchst, welche Modelle Sinn ergeben, wie du sie produktiv nutzt — und welche Versprechungen du getrost ignorieren kannst.

TL;DR — der Komplettguide auf einen Blick

  • Self-Host-KI heißt: Sprachmodelle (LLMs) auf eigener Hardware statt in der Cloud betreiben — mit voller Kontrolle über Daten und Kosten.
  • Einstieg: Ein 16-GB-RAM-Mini-PC reicht für 7B-Modelle. Mit GPU (8-12 GB VRAM) wird es ChatGPT-ähnlich schnell.
  • Software-Stack: Ollama als einfachster Server, Open WebUI als ChatGPT-ähnliche Oberfläche, n8n für Workflow-Integration.
  • Top-Modelle 2026: Llama 3.2/4, Qwen 2.5/3, DeepSeek-Coder — alle frei und in Quantisierungen für jede Hardware verfügbar.
  • Praktische Use-Cases: Chat ohne Cloud, Code-Assistent, RAG über eigene Dokumente, Smart-Home-Steuerung per Sprache, n8n-Automatisierung.

Warum lokale KI im Homelab — und warum 2026?

Drei Gründe, die 2026 den Ausschlag für viele geben:

  • Datenschutz: Jede ChatGPT-, Claude- oder Gemini-Anfrage geht durch fremde Rechner. Wer mit eigenen Dokumenten, Mandanten-Mails oder vertraulichen Daten arbeitet, ist mit lokalen Modellen auf der sicheren Seite.
  • Kosten: Cloud-API-Tokens summieren sich schnell. Wer 5-20 Anfragen pro Tag mit Code-Generierung macht, zahlt monatlich 30-100 Euro. Eine lokale GPU für 600-1.200 Euro spielt sich in 1-2 Jahren ein.
  • Verfügbarkeit: Cloud-Anbieter haben Service-Limits, Region-Sperren, Server-Outages. Eine lokale KI antwortet auch um 3 Uhr morgens, wenn das Netz gerade hakt.

Was 2026 möglich macht: Modelle wie Llama 3.2 mit 7B Parametern liefern in vielen Aufgaben ChatGPT-3.5-Niveau, das vor zwei Jahren noch ein Cloud-Service brauchte. Mit Quantisierung passen sie in 4-5 GB RAM. Auf einem aktuellen Mini-PC läuft das mit ein paar Tokens pro Sekunde — auf einer Mid-Range-GPU mit 30-60 Tokens pro Sekunde, vergleichbar mit dem ChatGPT-Web-UI.

Wann nicht Self-Host-KI?

Drei Szenarien, in denen Cloud-KI ehrlich besser ist:

  • Du brauchst die absolute Spitze (Claude Opus, GPT-5): Die Frontier-Modelle sind 2-3 Größenordnungen besser als alles, was lokal in 7-13 B Parameter passt. Wer harte mathematische oder juristische Probleme lösen lässt, kommt um die Cloud nicht herum.
  • Du nutzt KI sehr unregelmäßig: 2-5 Anfragen im Monat sind in der Cloud praktisch kostenlos. Eine GPU dafür anzuschaffen, lohnt sich nicht.
  • Multi-Modal-Aufgaben mit Bildern und Audio: Lokale Vision- und Speech-Modelle sind 2026 noch eine Stufe schwächer als die Cloud-Pendants.

Hardware — was du wirklich brauchst

Drei Klassen, je nach Anspruch:

KlasseHardwareModelleSpeed (Token/s)Budget
Einstieg (CPU-only)Mini-PC mit 16 GB RAM3B-7B Q43-8200-500 €
Mittelklasse (GPU)RTX 3060/4060 mit 12 GB VRAM7B-13B Q4-Q530-60700-1.200 €
Profi (Power-GPU)RTX 4090 / 5090, 24+ GB VRAM30B-70B Q420-402.000-3.500 €
Apple-SpecialMac mini M4 / Studio13B-70B Q415-30800-3.500 €

Wichtige Detail-Empfehlungen:

  • VRAM ist King. Mehr VRAM = größere Modelle in voller Geschwindigkeit. 12 GB ist 2026 das Sweet-Spot-Minimum, 24 GB der Komfort-Bereich.
  • Nvidia für Anfänger. CUDA ist mit Abstand am besten unterstützt. AMD ROCm hat sich verbessert, ist aber bei manchen Tools noch ein Setup-Risiko.
  • Mac mini M-Serie als geheime Option. Apple Silicon mit Unified Memory schlägt klassische GPUs in vielen Inferenz-Aufgaben — und ist sehr stromsparend.
  • VRAM-Mathematik: Faustregel „1 GB VRAM pro 1 Milliarde Parameter bei Q4-Quantisierung“. Ein 13B-Modell braucht also 13 GB — passt knapp auf eine 16-GB-GPU mit Kontext-Headroom.

Detail-Vergleich der besten Hardware-Optionen findest du im Spoke KI-Homelab-Hardware 2026 — mit konkreten Modellen, Stromkosten und Empfehlungen.

Software-Stack — die drei Bausteine

Ein laufender Self-Host-KI-Stack besteht typisch aus drei Komponenten:

  • Inference-Server: der eigentliche Modell-Runner. Ollama ist die einfachste Variante — ein Befehl, fertig. Alternativen: llama.cpp (sehr schnell, aber CLI), LocalAI (mehr Features, mehr Setup), vLLM (Profi-Server für viele parallele Anfragen).
  • Web-UI: die ChatGPT-ähnliche Oberfläche. Open WebUI hat 2026 die Konkurrenz hinter sich gelassen — übersichtlich, schnell, mit RAG-Support eingebaut. Alternativen: LibreChat, Anything LLM, Lobe Chat.
  • Workflow-Integration: wenn KI in deine Tools fließen soll. n8n ist der Schweizer-Taschenmesser-Workflow-Runner. Home Assistant bringt KI ins Smart-Home, Continue.dev in den VS-Code-Editor.

Empfohlene Reihenfolge: erst Ollama allein zum Test (CLI reicht), dann Open WebUI für den Komfort, dann optional n8n für Automatisierungen. Tieferer Einstieg in jeden Baustein:

Die wichtigsten Modelle 2026

Open-Source-Modelle haben sich 2024-2026 dramatisch verbessert. Sechs Empfehlungen, mit denen du fast alles abdecken kannst:

  • Llama 3.2/3.3 (8B/70B) — Meta-Klassiker, sehr ausgewogen, gut für allgemeinen Chat. 8B passt auf jede Mid-Range-GPU.
  • Qwen 2.5/3 (7B/14B/32B) — Alibaba-Modelle, sehr stark in Code und Logik, längere Kontextfenster. 7B ist 2026 oft die beste 1-GPU-Wahl.
  • DeepSeek-Coder-V2 (7B/16B) — spezialisiert auf Code-Generation, übertrifft Llama in Programmier-Aufgaben deutlich.
  • Mixtral 8x7B — Mixture-of-Experts-Modell, das für seine Größe (47B Parameter) erstaunlich gut auf Consumer-Hardware läuft.
  • Llama 3.2 Vision (11B) — multimodal, kann Bilder analysieren. Pflicht-Modell, sobald du visuelle Aufgaben hast.
  • nomic-embed-text — Embedding-Modell für RAG-Setups. Klein (137M), schnell, sehr gut für Such-Anwendungen.

Ein konkretes Beispiel mit dem 109B-Llama-4-Modell auf Mid-Range-Hardware steht im Spoke LLaMA 4 lokal betreiben.

Quantisierung — wie ein 70B-Modell in 30 GB passt

Modelle werden in unterschiedlichen Quantisierungen ausgeliefert. Die Zahl gibt an, wie viele Bits pro Parameter genutzt werden:

  • FP16 / Q8 — Volle Präzision. Beste Qualität, aber doppelt so groß wie Q4. Für Forschung und höchste Ansprüche.
  • Q5_K_M — Sehr gute Qualität, ~5,5 Bit pro Parameter. Empfohlener Kompromiss bei genug VRAM.
  • Q4_K_M — Sweet Spot 2026. ~4,5 Bit pro Parameter, kaum spürbarer Qualitätsverlust gegenüber Q8, halber Speicher-Bedarf.
  • Q3 oder kleiner — Nur für extreme Hardware-Engpässe, Qualität fällt spürbar ab.

Faustregel: Q4_K_M wählen, solange das Modell auf deine Hardware passt. Erst bei sehr engem RAM/VRAM auf Q3 herunterfallen.

Use-Cases, die im Homelab wirklich Sinn ergeben

  • Privater Chat ohne Cloud — ein lokales ChatGPT für sensible Themen, Brainstorming, Schreibhilfe.
  • Code-Assistent in der IDE — mit Continue.dev oder Cline in VS Code, der lokale DeepSeek-Coder ersetzt Copilot.
  • RAG über eigene Dokumente — Open WebUI lädt PDFs hoch, baut Embeddings, beantwortet Fragen über deine Doku/Mails/Notizen. Komplette Schritt-Anleitung im Spoke RAG im Homelab mit Ollama.
  • n8n-Automatisierung — KI als Schritt in deinen Workflows: E-Mails klassifizieren, Texte umschreiben, Daten extrahieren. Komplett-Anleitung mit drei Beispiel-Workflows im Spoke Ollama mit n8n verbinden.
  • Smart-Home-Sprachsteuerung — Home Assistant nutzt das lokale LLM für Verstehen freier Sätze („dim the lights in the living room to 30 percent“).
  • Übersetzungen und Zusammenfassungen — ohne Daten an DeepL oder Google zu schicken.

Privacy und Sicherheit

Lokale KI ist nicht automatisch sicher. Drei Punkte gehören in jedes Setup:

  • Ollama nicht auf 0.0.0.0 binden, wenn er nicht ins LAN gehört. Default ist 127.0.0.1, das ist sicher.
  • Open WebUI hinter einen Reverse Proxy mit HTTPS stellen und mit Authelia oder eingebauter Auth schützen.
  • Telemetrie deaktivieren — manche Tools melden Usage-Stats an Hersteller. Im Open-WebUI-Setup mit WEBUI_DISABLE_TELEMETRY=true abschalten.

Sieben häufige Anfänger-Fehler

  1. Zu großes Modell für die Hardware: Mit 8 GB VRAM ein 13B-Modell laden — dann CPU-Offload, ein-zwei Tokens pro Sekunde, Frust.
  2. Q8 statt Q4 wählen: Doppelter Speicher, kaum Qualitätsgewinn. Q4_K_M ist 2026 der Standard.
  3. Open WebUI öffentlich ohne Auth: Wer den Reverse Proxy nicht absichert, hat fremde Nutzer auf seinen Tokens.
  4. Cloud-API als Fallback nicht eingerichtet: Manche Use-Cases brauchen Spitze. Open WebUI kann parallel zu Ollama auch Anthropic oder OpenAI ansprechen — sinnvoll.
  5. Kein Backup der Modell-Files: Wenn die SSD raucht und du das 50-GB-Llama-4 erneut downloaden musst, ärgerst du dich.
  6. Performance-Erwartung an CPU-only: Realistische Werte sind 3-8 Tokens pro Sekunde. ChatGPT-Speed kommt erst mit GPU.
  7. Modelle nicht ausprobieren: Llama, Qwen, DeepSeek sind in unterschiedlichen Aufgaben unterschiedlich gut. Drei Modelle parallel haben und je nach Aufgabe wechseln.

Häufige Fragen

Reicht eine integrierte CPU-Grafik?

Für reine Inferenz ja, aber langsam. Intel ARC und neue AMD-iGPUs (Strix Halo, AI Max) liefern brauchbare Ergebnisse für 7B-Modelle. Für ChatGPT-Speed brauchst du eine dedizierte GPU mit mindestens 8 GB VRAM.

Apple Silicon vs. Nvidia GPU — was ist besser?

Hängt vom Use-Case ab. Apple Silicon (M2-M4) ist sehr stromsparend, sehr leise und durch Unified Memory besonders flexibel bei großen Modellen. Nvidia ist absolut schneller und besser unterstützt von vielen Tools. Im Homelab ist ein Mac mini eine erstaunlich gute Wahl — siehe unseren Hardware-Vergleich.

Wie groß sollte mein Kontextfenster sein?

Standard ist 4-8 K Tokens (etwa 6-12 Seiten Text). Für lange Dokumente lohnen sich 32 K oder 128 K-Modelle — aber jedes Token im Kontext kostet zusätzlich VRAM. Faustregel: Pro 1 K Kontext rechnest du 100-300 MB extra.

Kann ich mehrere Modelle parallel laufen lassen?

Ja, wenn der RAM/VRAM reicht. Ollama lagert nicht aktive Modelle automatisch aus, lädt sie bei Anfrage zurück. Mit 24 GB VRAM kannst du z. B. ein 7B-Chat-Modell und ein 7B-Code-Modell parallel präsent haben.

Wie integriere ich KI ins Smart-Home?

Home Assistant hat seit 2024 eingebaute LLM-Integration. Du verbindest deinen Ollama-Server, wählst ein Modell aus, und Sprachbefehle werden lokal verarbeitet — ohne Daten an Amazon, Google oder Apple zu schicken.

Lohnt sich Fine-Tuning?

Im Homelab fast nie. Fine-Tuning braucht Tausende GPU-Stunden und eine sorgfältig kuratierte Trainings-Datenmenge. Für die meisten Custom-Use-Cases reicht ein gut konstruiertes RAG-System mit Embeddings — deutlich günstiger und einfacher.

Strom-Verbrauch im 24/7-Betrieb?

Ollama lädt Modelle bei Bedarf, im Idle ist die GPU im Sleep-Mode. Realistische Verbrauchswerte: 15-30 W idle, 100-300 W bei aktiver Inferenz. Wer eine GPU 24/7 für KI bereithält, plant 5-10 Euro Mehrkosten pro Monat ein.

Welche Tools brauche ich neben Ollama wirklich?

Pflicht: Open WebUI für den Komfort. Optional: n8n für Automatisierungen, Continue.dev für Code-Assistent in VS Code, Anything LLM für RAG mit eigener Dokumenten-Pipeline. Mehr braucht 95 % der Homelab-Setups nicht.

Wo es weitergeht — Spoke-Tutorials und Quellen

Die Detail-Tutorials zu jedem Baustein:

Externe Pflichtquellen:

Du startest gerade dein erstes lokales KI-Setup und hängst an einer Stelle? Schreib uns eine Mail an admin@lapalutschi.de — Themenwünsche für die nächsten Spokes nehmen wir gerne auf die Liste.