Ollama mit n8n verbinden — KI-Workflows ohne Cloud bauen

Taxonomic-Silence-Plate Nr. 63: eine Kette aus elf Kreisen mit Iron-Oxide-Akzent in der Mitte, symbolisiert die Workflow-Sequenz aus Trigger, KI-Schritt und Aktion in n8n.

Hinweis: Dieser Beitrag enthält Affiliate-Links (mit * gekennzeichnet). Kaufst du über einen dieser Links, erhalten wir eine kleine Provision — für dich ändert sich der Preis nicht. Hardware wird vor jeder Empfehlung mindestens vier Wochen im eigenen Homelab getestet.

Ein lokales Sprachmodell allein ist nett für den Chat im Browser — richtig spannend wird es erst, wenn die KI in deine Workflows fließt. n8n ist 2026 das beliebteste Open-Source-Werkzeug für genau diese Aufgabe: Trigger, Schritt, Aktion — und mittendrin ein lokales Ollama, das Texte klassifiziert, umschreibt, zusammenfasst oder Anfragen sortiert. In diesem Tutorial bauen wir drei produktiv nutzbare Workflows, ohne dass eine einzige API-Anfrage in die Cloud geht.

TL;DR — der Guide auf einen Blick

  • n8n ist ein Workflow-Automatisierer mit Web-UI — ähnlich wie Zapier oder Make, aber selbst gehostet.
  • Ollama-Integration per OpenAI-kompatibler API — n8n ruft das lokale Modell wie einen Cloud-Service auf, ohne dass Daten dein Netz verlassen.
  • Drei Standard-Use-Cases: Mails klassifizieren, RSS-Feeds zusammenfassen, Notizen umschreiben.
  • Setup in 30 Minuten: n8n als Docker-Container, Ollama-API-Endpoint eintragen, ersten Workflow bauen.
  • Privacy-Killer-Vorteil: KI-getriebene Workflows ohne Cloud-Token-Kosten und ohne Datenschutz-Kompromisse.

Was ist n8n — und warum lokal?

n8n („nodemation“) ist ein Open-Source-Workflow-Tool, das du dir wie eine grafische Programmier-Umgebung vorstellen kannst: Du verbindest Nodes miteinander — ein Trigger startet den Workflow, jeder weitere Node verarbeitet die Daten, und am Ende landet das Ergebnis irgendwo. Über 400 vorgefertigte Integrationen sind dabei: Mail, Slack, Notion, GitHub, Datenbanken, RSS-Feeds, Webhooks — und seit 2023 auch eingebaute LLM-Nodes.

Drei Vorteile gegenüber Cloud-Diensten wie Zapier oder Make:

  • Keine pro-Aktion-Kosten: Bei Zapier kostet jeder Workflow-Run einen Token. n8n läuft auf deinem Server — unbegrenzt.
  • Datenschutz: Alle Daten bleiben in deinem Heimnetz. Bei Mandanten-Mails, Therapieprotokollen oder vertraulicher Korrespondenz kein Vergleich.
  • Eigene Skripte: n8n hat einen „Code“-Node, in dem du JavaScript oder Python schreiben kannst. Damit lassen sich auch Spezialfälle abdecken, die der Standard-Node-Katalog nicht hergibt.

n8n installieren — die Docker-Variante

Als Docker-Container ist n8n in fünf Minuten lauffähig. Eine schlanke docker-compose.yml:

services:
  n8n:
    image: n8nio/n8n:latest
    container_name: n8n
    restart: unless-stopped
    ports:
      - "5678:5678"
    environment:
      - N8N_HOST=n8n.deine-domain.de
      - N8N_PORT=5678
      - N8N_PROTOCOL=https
      - WEBHOOK_URL=https://n8n.deine-domain.de/
      - GENERIC_TIMEZONE=Europe/Berlin
      - N8N_BASIC_AUTH_ACTIVE=true
      - N8N_BASIC_AUTH_USER=admin
      - N8N_BASIC_AUTH_PASSWORD=changeme
    volumes:
      - ./n8n_data:/home/node/.n8n

Mit docker compose up -d ist n8n auf Port 5678 erreichbar. Im Login-Dialog die oben gesetzten Basic-Auth-Daten eintragen, dann landest du im Workflow-Editor.

Pflicht: Hinter einen Reverse Proxy mit HTTPS setzen. Webhooks von externen Diensten kommen sonst nicht an, weil moderne Plattformen HTTPS voraussetzen.

Ollama als KI-Backend in n8n einbinden

n8n hat einen „OpenAI“-Node, der mit jeder OpenAI-kompatiblen API funktioniert — und Ollama bietet genau so eine API. Das macht die Integration trivial.

Schritt 1: Credentials anlegen

In n8n: links unten auf „Credentials“ → „Add Credential“ → „OpenAI API“. Felder:

  • API Key: ein beliebiger Dummy-String (z. B. ollama) — Ollama prüft den nicht.
  • Base URL: http://192.168.1.10:11434/v1 (deine Ollama-Server-IP).

Speichern. Damit kann n8n alle Modelle aufrufen, die in Ollama geladen sind.

Schritt 2: Erster Test-Call

Neuer Workflow → Manual Trigger als Start → „OpenAI“-Node anhängen. In den Node-Einstellungen:

  • Resource: Chat
  • Model: llama3.2:8b (oder ein anderes geladenes Modell)
  • Messages: System „Du bist ein hilfsbereiter Assistent“ + User „Sag mir Hallo auf Deutsch“

„Execute Node“ klicken — nach 1-3 Sekunden hast du eine Antwort. Wenn das funktioniert, ist die Integration sauber und du kannst echte Workflows bauen.

Workflow 1: E-Mails klassifizieren

Use-Case: Eingehende Mails sollen automatisch in Kategorien sortiert werden („Rechnung“, „Spam“, „Kunde“, „Newsletter“). Ohne KI brauchst du regelbasierte Filter; mit KI versteht das System auch ungewohnte Formulierungen.

  1. IMAP Trigger — lauscht auf neue Mails in einem Postfach.
  2. OpenAI-Node — mit System-Prompt „Du bist ein E-Mail-Klassifizierer. Antworte nur mit einem Wort: rechnung, spam, kunde, newsletter, sonstiges.“ und User-Prompt mit Betreff + ersten 500 Zeichen Body.
  3. Switch-Node — verzweigt anhand der Antwort in vier Pfade.
  4. IMAP-Node — verschiebt die Mail in den passenden Ordner (z. B. „Rechnungen“).

Im Test-Lauf solltest du die Klassifikationen einige Tage prüfen und das Modell-Prompt anpassen, falls die Sortierung schief läuft. Mit llama3.2:8b und 200-300 Test-Mails liegt die Trefferquote nach 2-3 Iterationen typisch über 90 %.

Workflow 2: RSS-Feeds zusammenfassen

Use-Case: Du folgst 30 Tech-Blogs und willst einmal pro Tag eine kompakte Zusammenfassung der neuen Beiträge. Ohne KI musst du selber lesen; mit KI bekommst du eine 5-Bullet-Zusammenfassung pro Beitrag.

  1. Schedule Trigger — täglich um 7:00 Uhr.
  2. RSS Read Node — holt Items von 30 Feed-URLs.
  3. Loop Over Items — verarbeitet jeden Beitrag einzeln.
  4. HTTP Request — lädt den Volltext des Beitrags (oder Mercury-Reader-API).
  5. OpenAI-Node — „Fasse den folgenden Artikel in 5 Bullets zusammen, mit Fokus auf Praxis-Relevanz für Homelab-Admins“.
  6. Telegram-Node — schickt die Zusammenfassungen an deinen privaten Bot oder eine eigene Notion-Seite.

Dieser Workflow ist ein echter Zeit-Multiplikator: Was du mit Schnell-Lesen 30 Minuten brauchst, erledigt n8n + Ollama in 5-10 Minuten Inferenz-Zeit.

Workflow 3: Notizen umschreiben

Use-Case: Du diktierst Notizen ins Handy, willst aber sauber formatierte Markdown-Notizen in Obsidian oder Joplin. Diktat-Sprach-zu-Text liefert Roh-Text mit Tippfehlern und ohne Struktur.

  1. Webhook Trigger — nimmt JSON-Daten vom Diktat-Tool entgegen.
  2. OpenAI-Node 1 — „Korrigiere Rechtschreibung und Grammatik des folgenden Textes, ohne den Inhalt zu ändern.“
  3. OpenAI-Node 2 — „Strukturiere den Text in Markdown mit Headern, Listen und kurzen Absätzen.“
  4. HTTP Request — speichert die Markdown-Datei per WebDAV im Obsidian-Vault.

Diese Pipeline funktioniert auch sehr gut für Vereinsprotokolle, Meeting-Notizen oder Gedächtnisstützen vom Spaziergang. Mit etwas Tuning des System-Prompts wird der Output erstaunlich gut.

Tipps aus der Praxis

  • System-Prompts klein halten: Je präziser, desto schneller das Modell. „Antworte nur mit einem Wort“ reduziert den Output drastisch.
  • Temperature niedrig: Für Klassifikations-Aufgaben Temperature 0.0-0.2 setzen — das macht die Antworten deterministisch und prüfbar.
  • Token-Limit setzen: max_tokens auf 200-500 für kurze Antworten, sonst frisst die KI unnötig Inferenz-Zeit.
  • Output-Schema erzwingen: Mit dem „JSON Mode“ oder Tool-Calling lassen sich strukturierte Antworten erzwingen, die n8n direkt weiterverarbeitet.
  • Fail-fast und Logging: n8n hat eingebautes Error-Handling. Im „Catch“-Workflow Logs an Telegram oder eine eigene Datenbank schicken — sonst merkst du Fehler erst beim nächsten Live-Test.

Häufige Fragen

Welches Ollama-Modell für Workflows?

llama3.2:8b oder qwen2.5:7b als Allrounder. Für Code-Workflows deepseek-coder-v2. Für strenge JSON-Antworten nuextract oder Modelle mit Tool-Calling-Support. Faustregel: schnellere Modelle für hochfrequente Workflows, größere Modelle für anspruchsvollere Aufgaben.

Wie schnell sind die Workflows in der Praxis?

Hängt vom Modell und der Hardware ab: 2-5 Sekunden pro KI-Schritt mit GPU, 10-30 Sekunden auf CPU. Workflows mit 5-10 KI-Schritten sind also Minuten-Sache — nicht Echtzeit, aber für Hintergrund-Automation perfekt.

Kann ich auch mehrere Modelle im Wechsel nutzen?

Ja. Im OpenAI-Node wählst du das Modell pro Aufruf, damit kannst du z. B. einen Klassifikations-Schritt mit llama3.2:3b (klein und schnell) machen und einen Schreib-Schritt mit qwen2.5:14b (größer und besser). Ollama lädt die Modelle nach Bedarf, mit Cache.

Wie debuggse ich einen Workflow, der nicht funktioniert?

n8n hat einen „Execution“-Tab, in dem jeder Node-Output sichtbar ist — vor und nach der Verarbeitung. Bei KI-Antworten schaust du, was das Modell tatsächlich zurückgegeben hat, und passt den System-Prompt an.

Wie sicher ist n8n?

Mit Basic-Auth + HTTPS-Reverse-Proxy + dediziertem n8n-User auf dem Host gut abgesichert. Pflicht: Keine Production-Credentials in der Workflow-Definition als Klartext — immer den n8n-Credentials-Manager nutzen, der die Secrets verschlüsselt.

Welche Limits hat das System?

n8n stemmt locker Hunderte Workflows. Limits sind die KI-Inferenz (deine GPU/CPU) und ggf. die externen APIs, die du anrufst. Wer Tausende Workflow-Runs pro Tag fährt, sollte auf einen separaten n8n-Server ausweichen oder die KI-Schritte auf einen größeren Inferenz-Server verlagern.

Was, wenn die KI mal danebenliegt?

Drei Strategien: 1) Validierungs-Schritt nach der KI — prüft, ob die Antwort eines der erwarteten Wörter ist. 2) „Ask-Human“-Node — bei Unsicherheit Mensch einbinden. 3) Logging und Reviews — einmal pro Woche die Ergebnisse durchschauen, das System nachjustieren.

Wo es weitergeht

Externe Pflichtquellen:

Du baust gerade einen Workflow und hängst an einer Stelle? Schreib uns eine Mail an admin@lapalutschi.de.