RAG im Homelab mit Ollama

Hinweis: Dieser Beitrag enthält Affiliate-Links (mit * gekennzeichnet). Kaufst du über einen dieser Links, erhalten wir eine kleine Provision — für dich ändert sich der Preis nicht. Hardware wird vor jeder Empfehlung mindestens vier Wochen im eigenen Homelab getestet.

Ein lokales Sprachmodell ist 2026 schnell aufgesetzt — aber von Haus aus weiß es nichts über deine eigenen Dokumente, Notizen oder PDF-Sammlungen. Genau dafür gibt es RAG (Retrieval-Augmented Generation): Eine Technik, mit der du eigene Inhalte als zusätzliche Wissensquelle ans Modell hängst. Die KI durchsucht beim Antworten deine Dokumente und integriert relevante Stellen in die Antwort — ganz ohne Fine-Tuning, ohne dass deine Daten irgendwo in die Cloud wandern. In diesem Tutorial bauen wir das Schritt für Schritt im Homelab auf.

TL;DR — der Guide auf einen Blick

RAG = lokales LLM + Embedding-Modell + Vector-Datenbank. Die KI sucht in deinen Dokumenten und nutzt die Treffer als Kontext.
Drei Tool-Wege: Open WebUI (eingebaut, einfach), Anything LLM (mehr Komfort), LangChain (Profi-Bauplan für eigene Apps).
Hardware: Funktioniert ab 16 GB RAM. Mit GPU werden Such-Embeddings in Millisekunden statt Sekunden erzeugt.
Embedding-Modell: nomic-embed-text reicht für 95 % der Homelab-Setups — klein, schnell, gut.
Privacy: Keine Daten verlassen deinen Server — perfekt für Mandanten-Akten, Notizen, persönliche Wikis.

Was ist RAG eigentlich — und wofür?

Ein klassisches Sprachmodell wie Llama 3.2 hat in seinen Trainings-Daten die ganze Wikipedia, viele Bücher, Code-Repositories. Aber nichts über deine Welt — deine Mails der letzten Jahre, deine Mandanten-Akten, deine Vereins-Protokolle, dein technisches Wiki im Confluence. Wenn du einem Modell eine Frage zu diesen Inhalten stellst, halluziniert es im besten Fall plausibel, im schlimmsten Fall völlig daneben.

RAG löst das eleganter als Fine-Tuning: Statt dem Modell neues Wissen einzupressen (was Tausende GPU-Stunden kostet), gibst du ihm zur Laufzeit die richtigen Stellen aus deinen Dokumenten als Kontext mit. Drei Schritte:

Vorbereitung (einmalig): Deine Dokumente werden in Stücke (Chunks) zerlegt, ein Embedding-Modell wandelt jeden Chunk in einen Zahlenvektor. Die Vektoren landen in einer Vector-Datenbank.
Frage: Du stellst eine Frage. Die wird ebenfalls in einen Vektor umgewandelt.
Such-Antwort: Die Vector-DB findet die ähnlichsten Chunks. Diese Treffer werden zusammen mit deiner Frage an das LLM geschickt — und das antwortet auf Basis dieser konkreten Informationen.

Klingt komplex, ist im Setup aber überschaubar — vor allem, wenn du fertige Tools wie Open WebUI nutzt, die alle drei Schritte hinter einem Klick verstecken.

Warum RAG statt Fine-Tuning?

Kriterium	Fine-Tuning	RAG
Initial-Aufwand	Tausende GPU-Stunden	Stunden bis Tage
Hardware	Mehrere High-End-GPUs	Standard-Mid-Range
Update neuer Inhalte	komplettes Re-Training	Datei reinkopieren
Quellen-Nachvollziehbarkeit	nicht möglich	direkter Zitat-Verweis
Halluzinations-Risiko	höher	niedriger (mit Quellen)
Datenschutz	Trainings-Daten gehen ins Modell	Daten bleiben in eigener DB

Fine-Tuning lohnt sich nur in Spezialfällen (z. B. eigener Sprach-Stil, sehr spezifische Domain-Sprache). Für 95 % der Homelab-Use-Cases ist RAG die richtige Wahl.

Die drei Bausteine eines RAG-Setups

Sprachmodell (LLM): der Antworter. Llama 3.2, Qwen 2.5 oder ein vergleichbares Chat-Modell — mit Ollama als Server.
Embedding-Modell: wandelt Text in Vektoren um. Der Standard 2026 ist nomic-embed-text — klein (137M Parameter), schnell, gute Qualität. Ollama lädt das Modell genauso wie ein Chat-Modell.
Vector-Datenbank: speichert die Vektoren und findet die ähnlichsten zur Anfrage. ChromaDB, Qdrant oder Weaviate sind beliebt — aber im Open-WebUI-Kontext brauchst du keine eigene DB, das ist eingebaut.

Tool-Vergleich: Open WebUI, Anything LLM, LangChain

Open WebUI — die einfachste Variante. RAG ist eingebaut, du lädst Dokumente per Drag-and-Drop hoch, fertig. Empfehlung für 90 % der Homelab-Setups.
Anything LLM — etwas mehr Komfort: „Workspaces“ trennen verschiedene Wissens-Domänen, OCR für Bilder ist integriert, Connector zu Notion/Confluence/GitHub. Lohnt sich, wenn du mehr als nur lokale Files brauchst.
LangChain / LlamaIndex (selbstgebaut) — Maximum-Flexibilität, eigener Code. Sinnvoll, wenn du eine RAG-getriebene App selbst baust und nicht nur einen Chat brauchst.

Wir gehen den Open-WebUI-Weg, weil er am schnellsten zum Erfolg führt. Anything LLM ist die saubere Erweiterung, sobald die Anforderungen wachsen.

Schritt für Schritt: RAG mit Open WebUI

Schritt 1: Embedding-Modell laden

Auf deinem Ollama-Server (Setup im Spoke Ollama auf eigenem Server beschrieben) holst du das Embedding-Modell:

ollama pull nomic-embed-text

~270 MB Download, danach im Hintergrund verfügbar. Alternative: mxbai-embed-large für mehr Qualität bei längeren Texten, kostet aber etwas mehr Speed.

Schritt 2: Open WebUI für Embeddings konfigurieren

In Open WebUI: Settings → Documents → „Embedding Model Engine“ auf Ollama stellen, „Embedding Model“ auf nomic-embed-text. Speichern.

Optional: Chunk-Size auf 1000-1500 Zeichen, Chunk-Overlap auf 100-200 Zeichen. Das sind sinnvolle Defaults — größere Chunks für längere Dokumente, kleinere für FAQ-artige Sammlungen.

Schritt 3: Dokumente hochladen

Im Open WebUI gibt es zwei Wege, Wissen hinzuzufügen:

Per Chat: Direkt im Chat-Fenster oben rechts auf das Plus-Symbol klicken, Dateien hochladen. Sind nur in dieser Conversation aktiv.
Knowledge-Base: Workspace → Knowledge → „Create Knowledge“. Dort lädst du PDF, DOCX, TXT, MD oder ganze Ordner hoch. Diese Wissensbasen kannst du dann in beliebige Chats einbinden.

Open WebUI unterstützt 2026: PDF (mit OCR-Fallback), DOCX, TXT, Markdown, EPUB, CSV, einige Code-Dateitypen. Bei großen Dateien (50+ MB PDFs) dauert die Indizierung mehrere Minuten — im Hintergrund läuft das Embedding-Modell.

Schritt 4: Frage mit Wissens-Kontext stellen

Im Chat-Fenster wählst du oben das LLM (z. B. llama3.2:8b) und im „+“-Menü oder als „@knowledge“-Verweis deine Knowledge-Base. Frag dann ganz normal — die KI nutzt automatisch die relevanten Stellen aus deinen Dokumenten.

Open WebUI zeigt dir am Antwort-Ende die verwendeten Quellen mit Datei und Seitenzahl. Damit kannst du prüfen, ob die KI sich tatsächlich auf deine Dokumente stützt — oder halluziniert.

Performance-Tipps

GPU für Embeddings: Auch wenn dein Chat-Modell auf der CPU läuft, lohnt sich eine GPU für das Embedding-Modell. Eine 50-MB-PDF mit 100 Chunks ist auf CPU 2-3 Minuten, auf GPU 5-10 Sekunden.
Hybrid-Search: Open WebUI 0.4+ kann zusätzlich zum Vector-Search einen klassischen BM25-Volltextsuch machen und beide Treffer kombinieren. Liefert oft präzisere Ergebnisse.
Chunk-Größe anpassen: Bei sehr kurzen FAQ-Einträgen 300-500 Zeichen, bei langen Whitepaper-Dokumenten 1500-2000. Faustregel: Ein Chunk sollte ein abgeschlossenes Mini-Thema enthalten.
Re-Ranking: Profi-Setups nutzen ein zweites kleines Modell, das die Such-Treffer nochmal nach Relevanz sortiert. In Anything LLM standardmäßig dabei, in Open WebUI noch experimentell.

Privacy — der eigentliche Killer-Vorteil

Cloud-Lösungen wie ChatGPT-Documents, Notion AI oder Microsoft Copilot Pro sind bequem — aber jede Datei, die du hochlädst, geht durch fremde Rechner. Bei Mandanten-Akten, Therapiebriefen, juristischen Dokumenten oder vertraulichen Forschungsberichten ist das ein No-Go.

Mit lokalem RAG bleibt jede Datei auf deinem Server. Der Reverse Proxy (siehe Spoke Reverse Proxy fürs Homelab) macht den Zugriff sauber, eine VPN-Anbindung ermöglicht Zugriff von unterwegs — Cloud-frei und unter deiner Kontrolle.

Anwendungsbeispiele aus der Praxis

Persönliches Wissens-Wiki: Markdown-Notizen aus Obsidian oder Joplin als Knowledge-Base. Frag deine eigene Notizensammlung „Was hatte ich zum Thema X notiert?“.
Code-Doku verstehen: README-Files, API-Dokumentationen und Confluence-Exports indizieren. Die KI antwortet mit Verweisen auf konkrete Code-Stellen.
Interne FAQ für Teams: Häufige Fragen + Antworten als Markdown-Sammlung. Neue Mitarbeiter haben sofort einen kompetenten „Mentor“ zur Hand.
Recherche-Assistent: PDFs aus Forschungsdatenbanken hochladen, mit der KI zusammenfassen, Querverweise finden, Argumente prüfen.
Akten-Suche bei Selbstständigen: Rechnungen, Verträge, Korrespondenz der letzten Jahre — statt mühsam zu suchen, einfach fragen.

Häufige Fragen

Wie groß darf eine Knowledge-Base werden?

Ohne Probleme bis 100-200 MB Dokumenten-Volumen pro Workspace. Darüber hinaus wird die Suche etwas langsamer, lohnt sich also Aufteilung in Themen-spezifische Workspaces. Die Vector-DB selbst skaliert problemlos auf Gigabytes — die Hardware-Limits liegen eher bei der Embedding-Geschwindigkeit beim Hinzufügen neuer Dokumente.

Welches Embedding-Modell ist am besten?

nomic-embed-text ist 2026 der Standard im Open-Source-Bereich — klein, schnell, gute Qualität. mxbai-embed-large ist genauer bei langen Texten, kostet aber mehr RAM. Für komplett mehrsprachige Setups: BGE-M3.

Funktioniert RAG mit Bildern?

Eingeschränkt. Reine Bilder (Screenshots, Fotos) brauchen ein Vision-Modell zur OCR-Extraktion — Anything LLM hat das eingebaut, Open WebUI macht das mit Tesseract als Fallback. PDFs mit eingebettetem Text werden direkt extrahiert. Multimodale RAG-Setups, in denen Bilder selbst als Vektoren indexiert werden, sind 2026 noch experimentell.

Wie aktualisiere ich die Wissensbasis?

Bei Open WebUI: einfach neue Dateien hochladen oder bestehende ersetzen. Bei Setups mit lokalen Ordnern (Anything LLM): Synchronisations-Job legt das automatisch an. Im n8n-Workflow lassen sich neue Notizen oder PDFs auch automatisiert ansaugen.

Was tun bei schlechten Antworten?

Drei Hebel: 1) Chunk-Größe anpassen (oft das Hauptproblem), 2) bessere Frage stellen (kontextueller, mit Stichworten aus den Dokumenten), 3) ein größeres LLM nutzen (von 7B auf 13B/32B wechseln, das macht oft den entscheidenden Unterschied).

Wie schütze ich die Wissensbasis vor Daten-Lecks?

Open WebUI hinter Reverse Proxy mit HTTPS + Authentication (Built-in oder Authelia). Dazu User-spezifische Workspaces — nicht jeder Nutzer sieht jede Knowledge-Base. Bei sehr sensiblen Daten zusätzlich Verschlüsselung der zugrundeliegenden ZFS-Datasets.

Reicht das für ein Unternehmens-Wiki?

Für 5-30 Mitarbeiter: ja, mit etwas Tuning auch noch deutlich mehr. Ab größeren Setups lohnt sich der Sprung zu professionellen Lösungen wie Verba, Cohere-Backed-Setups oder eigenen LangChain-Pipelines mit dedicated Vector-DB (Qdrant, Weaviate).

Wo es weitergeht

Self-Hosted KI 2026 — der Komplettguide — die Pillar, in der RAG ein Baustein ist.
Ollama auf eigenem Server — LLM-Server-Setup als Voraussetzung.
Ollama mit Open WebUI — das Web-Interface ist der RAG-Hub.
KI-Homelab-Hardware 2026 — Hardware-Empfehlungen für RAG-Setups.
Reverse Proxy fürs Homelab — HTTPS für Open WebUI.

Externe Pflichtquellen:

Open WebUI auf GitHub — offizieller Quellcode mit RAG-Doku.
anythingllm.com — Komfort-Variante mit Workspaces.
MTEB Leaderboard — Benchmarks für Embedding-Modelle.
r/LocalLLaMA — sehr aktive Community zu RAG-Setups.

Du baust gerade dein erstes RAG-Setup und hängst an einer Stelle? Schreib uns eine Mail an admin@lapalutschi.de.