LLaMA 4 lokal betreiben: So läuft das 109B-Modell auf deinem 500€-Homelab-Server
In diesem Artikel zeigen wir dir, wie du LLaMA 4 lokal betreiben kannst – auf gebrauchter Homelab-Hardware für rund 500€. Mit der MoE-Architektur von Scout ist das technisch möglich, erfordert aber ehrliche Erwartungen an Performance und Hardware-Ausstattung, insbesondere beim RAM. Du bekommst eine vollständige Anleitung von der Hardware-Auswahl über die Ollama-Installation bis hin zu Performance-Benchmarks und einem ehrlichen Kosten-Vergleich mit Cloud-APIs.
Was ist LLaMA 4 – und warum ist es interessant für Homelab?
Meta hat im April 2025 LLaMA 4 veröffentlicht und damit die Messlatte für Open-Source-Sprachmodelle deutlich höher gelegt. Das Besondere: LLaMA 4 Scout nutzt eine Mixture-of-Experts (MoE)-Architektur mit 109 Milliarden Parametern – aktiviert aber pro Token nur rund 17 Milliarden davon. Das klingt technisch, hat aber eine sehr praktische Konsequenz: Der tatsächliche Rechenaufwand pro Token ist geringer als bei einem vergleichbaren Dense-Modell.
Wichtig für Homelab-Betreiber: Trotz MoE-Architektur muss das gesamte Modell im Speicher liegen, nicht nur die aktiven Experten. In der Standard-Quantisierung (Q4) ist das für LLaMA 4 Scout rund 67 GB – das übersteigt den VRAM jeder einzelnen Konsumenten-GPU deutlich. Mit CPU-Offloading (Modell liegt teils im GPU-VRAM, teils im System-RAM) ist lokaler Betrieb dennoch möglich – mit entsprechenden Abstrichen bei der Geschwindigkeit.
Hardware-Anforderungen für LLaMA 4 Scout
Bevor du loslegst, hier die wichtigsten Hardware-Voraussetzungen im Überblick:
- GPU: NVIDIA RTX 3090 mit 24 GB VRAM empfohlen (für CPU-Offloading-Betrieb)
- System-RAM: Mindestens 64 GB, empfohlen 128 GB – das Modell (67 GB Q4) muss vollständig in VRAM + RAM Platz finden
- CPU: Moderner 8-Kern-Prozessor (Intel Xeon E5, AMD Ryzen 5 5600X oder besser)
- Speicher: 500 GB SSD (NVMe bevorzugt für schnelleres Laden)
- Betriebssystem: Linux (Ubuntu 22.04 oder 24.04 empfohlen)
Wichtiger Hinweis zu VRAM: LLaMA 4 Scout Q4 benötigt ca. 67 GB Gesamtspeicher, Q8 sogar rund 117 GB. Eine einzelne RTX 3090 mit 24 GB VRAM reicht für vollständige GPU-Inferenz nicht aus. Ollama nutzt in diesem Fall CPU-Offloading: Ein Teil der Modell-Schichten liegt im VRAM, der Rest im System-RAM. Das ist möglich, aber langsamer als reine GPU-Inferenz.
Der 500€-Homelab-Build: Empfehlungen für gebrauchte Hardware
Du brauchst keinen neuen High-End-Rechner. Gebrauchte Workstations von Dell, HP oder Lenovo sind eine hervorragende Grundlage – Firmen erneuern ihre IT-Flotte alle 3–4 Jahre, und der Gebrauchtmarkt ist voll mit günstiger, zuverlässiger Hardware.
Budget-Option: ~450–600€ Gesamtkosten
- Workstation-Basis: Dell Precision T3610 / T3630 oder HP Z440 (eBay, ca. 80–150€)
- Intel Xeon E5 mit 6–8 Kernen, aufrüstbar auf 128 GB DDR4 ECC-RAM
- RAM: 128 GB DDR4 ECC (4× 32 GB, gebraucht ca. 60–100€) – unbedingt einplanen
- GPU: NVIDIA RTX 3090 (24 GB VRAM) gebraucht (eBay, ca. 300–400€)
- SSD: 1 TB NVMe M.2 (neu ca. 50–70€)
- Netzteil: 750W modulares Netzteil, falls noch nicht vorhanden (ca. 50€)
Tipp: Ältere Workstations wie der Dell Precision T3610 haben meist schon ein 600W-Netzteil verbaut. Die RTX 3090 braucht allerdings 350W TDP – kontrolliere also, ob das vorhandene Netzteil ausreicht, oder plane ein Upgrade ein.
Mid-Range-Option: ~700–900€
- Workstation: Dell Precision T5820 oder HP Z6 G4 (eBay, ca. 200–300€)
- Intel Xeon W mit 8–12 Kernen, 128 GB DDR4 ECC bereits ausbaubar
- GPU: NVIDIA RTX 3090 oder RTX 4090 gebraucht (24 GB VRAM)
LLaMA 4 lokal betreiben: Schritt-für-Schritt-Anleitung mit Ollama
Der einfachste Weg, LLaMA 4 lokal zu betreiben, ist Ollama. Das Tool kapselt llama.cpp in einem benutzerfreundlichen Server mit Docker-ähnlicher Bedienung und bietet einen OpenAI-kompatiblen API-Endpunkt. Ollama verwaltet das CPU-Offloading automatisch, wenn der VRAM nicht ausreicht.
1. Ubuntu aktualisieren und NVIDIA-Treiber installieren
sudo apt update && sudo apt upgrade -y
# NVIDIA-Treiber installieren (empfohlen: 545 oder neuer)
sudo apt install nvidia-driver-545 -y
sudo reboot
Nach dem Neustart prüfst du, ob die GPU erkannt wird:
nvidia-smi
2. Ollama installieren
curl -fsSL https://ollama.com/install.sh | sh
Ollama startet automatisch als Systemdienst. Den Status kannst du mit folgendem Befehl prüfen:
systemctl status ollama
3. LLaMA 4 Scout herunterladen und starten
# Standard Q4-Version herunterladen und starten (~67 GB Download)
ollama run llama4:scout
Beim ersten Start wird das Modell heruntergeladen (ca. 67 GB für die Standard-Q4-Version). Das kann je nach Internetverbindung mehrere Stunden dauern. Danach öffnet sich direkt eine interaktive Chat-Session. Ollama erkennt automatisch, dass das Modell nicht vollständig in den VRAM passt, und aktiviert CPU-Offloading.
Hinweis: Der Tag
llama4:scout-q2_kexistiert derzeit nicht offiziell. Verwende stattdessenllama4:scout(Q4, 67 GB) oderllama4:17b-scout-16e-instruct-q8_0(Q8, 117 GB). Für den 500€-Homelab-Build empfehlen wir die Standard-Q4-Version.
4. API-Zugriff testen (OpenAI-kompatibel)
Ollama bietet automatisch eine REST-API auf Port 11434 an:
curl http://localhost:11434/api/generate -d '{
"model": "llama4:scout",
"prompt": "Erkläre Mixture-of-Experts in einfachen Worten.",
"stream": false
}'
Die API ist OpenAI-kompatibel – du kannst also jede Anwendung, die OpenAI unterstützt, direkt auf deinen lokalen Ollama-Server umleiten.
5. Webinterface mit Open WebUI (optional, aber empfohlen)
Wer eine grafische Oberfläche bevorzugt, installiert Open WebUI per Docker:
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
ghcr.io/open-webui/open-webui:main
Danach rufst du http://localhost:3000 im Browser auf und hast eine ChatGPT-ähnliche Oberfläche für dein lokales Modell.
Performance: Was kannst du realistisch erwarten?
Die Geschwindigkeit hängt stark von der VRAM/RAM-Verteilung ab. Bei CPU-Offloading auf einem System mit RTX 3090 (24 GB VRAM) und 128 GB System-RAM sind folgende Werte realistisch:
- LLaMA 4 Scout Q4 (67 GB) mit CPU-Offloading: ~1–5 Tokens/Sekunde – langsam, aber für nicht-interaktive Aufgaben nutzbar
- Für reine GPU-Inferenz wären zwei RTX 3090 (2× 24 GB = 48 GB) nötig – damit käme man auf ~8–15 Tokens/Sekunde. Für 67 GB reicht das immer noch nicht vollständig, aber mit aktiviertem Offloading deutlich schneller.
- Q8 (117 GB): Erfordert Multi-GPU-Setup mit mehreren Hochleistungskarten (z.B. 2× A100 80 GB) oder Apple M3 Ultra – nicht für Homelab-Budget
Zum Vergleich mit anderen lokalen Modellen auf derselben Hardware: Mistral 7B läuft vollständig im GPU-VRAM und erreicht ~60–80 Tokens/Sekunde. Phi-4 (14B) passt ebenfalls in 24 GB und liefert ~30–40 Tokens/Sekunde. Wer Geschwindigkeit priorisiert, ist mit diesen Modellen besser bedient. LLaMA 4 Scout überzeugt dafür bei der Antwortqualität.
Häufige Fehler und Troubleshooting
Beim ersten Einrichten können einige typische Probleme auftreten. Hier die häufigsten Fehler und ihre Lösungen:
- CUDA-Fehler „no kernel image is available for execution“: Der NVIDIA-Treiber passt nicht zur CUDA-Version von Ollama. Lösung: Treiber auf Version 545+ aktualisieren (
sudo apt install nvidia-driver-545) und neu starten. - „VRAM out of memory“ beim Laden: Das Modell übersteigt den VRAM. Ollama aktiviert normalerweise automatisch CPU-Offloading. Falls nicht: Prüfe, ob ausreichend System-RAM vorhanden ist (mindestens 64 GB frei). Alternativ rein auf CPU wechseln:
OLLAMA_NUM_GPU=0 ollama run llama4:scout(sehr langsam, aber ohne VRAM-Limit). - Sehr langsame Inferenz (<1 Tokens/Sekunde): Zu wenig System-RAM. Mit nur 32 GB RAM muss das System Swap nutzen – das macht die Ausgabe praktisch unbrauchbar. Mindestens 64 GB, besser 128 GB RAM einbauen.
- Ollama-Dienst startet nicht: Prüfe mit
journalctl -u ollama -fdie Logs. Häufige Ursache: Port 11434 ist bereits belegt. Lösung:sudo lsof -i :11434ausführen und den blockierenden Prozess beenden. - Modell-Download bricht ab: Ollama setzt den Download automatisch fort. Einfach
ollama run llama4:scouterneut ausführen – bereits heruntergeladene Teile werden nicht neu geladen.
Kosten vs. Cloud-API: Wann lohnt sich das Homelab?
Die entscheidende Frage: Rechnet sich die Investition überhaupt? Eine ehrliche Rechnung:
Cloud-API-Kosten (Beispiel)
- LLaMA 4 Maverick API: ~0,15$ pro Million Input-Token, ~0,60$ pro Million Output-Token
- GPT-4o: ~15$ pro Million Output-Token
- Bei intensiver Nutzung (Entwickler, Content-Erstellung, Automatisierung): 50–200€/Monat realistisch
Homelab-Kosten
- Einmalige Hardware-Investition: ~500–600€ (inkl. ausreichend RAM)
- Stromkosten: ca. 20–40€/Monat (RTX 3090 unter Last ~350W)
- Break-Even bei 50€ Einsparung/Monat: nach 12–16 Monaten
- Danach: praktisch kostenlose, unbegrenzte Nutzung
Wichtig: Bei geringer Nutzung oder wenn Geschwindigkeit entscheidend ist, lohnt sich das Homelab oft nicht. Wer aber täglich mit KI-Modellen arbeitet, Datenschutz wichtig nimmt oder sensible Daten lokal halten muss, ist hier klar im Vorteil – auch bei 1–5 Tokens/Sekunde für nicht-interaktive Batch-Aufgaben.
Weitere Vorteile des lokalen Betriebs
- Datenschutz: Alle Anfragen bleiben auf deinem eigenen System
- Keine Ratenbegrenzung: Kein API-Limit, kein Throttling
- Offline-Betrieb: Funktioniert ohne Internetverbindung
- Volle Kontrolle: Eigene Systemprompte, Fine-Tuning möglich
Fazit: LLaMA 4 lokal – machbar, aber mit realistischen Erwartungen
LLaMA 4 Scout auf einem 500€-Homelab-Server zu betreiben ist mit CPU-Offloading möglich – aber nicht so komfortabel wie ein kleineres Modell auf dedizierter GPU. Das Modell benötigt 67 GB Speicher in der Standard-Q4-Version; eine einzelne RTX 3090 mit 24 GB VRAM reicht für vollständige GPU-Inferenz nicht aus. Mit 128 GB System-RAM und CPU-Offloading erreichst du 1–5 Tokens/Sekunde – langsam, aber für Batch-Aufgaben, Dokumentenanalyse oder Overnight-Jobs durchaus brauchbar.
Wer flüssige Konversation (20+ tok/s) möchte, ist mit Mistral 7B oder Phi-4 besser bedient – diese laufen komplett im VRAM. LLaMA 4 Scout ist die Wahl, wenn maximale Antwortqualität wichtiger ist als Geschwindigkeit, und wenn ein entsprechendes RAM-Budget vorhanden ist.
Für Multi-GPU-Setups (z.B. zwei RTX 3090) oder Apple Silicon (Mac Studio M4 Ultra) verbessert sich die Performance erheblich – das sprengt aber das 500€-Budget. Als erster Schritt in die Welt der großen lokalen LLMs ist LLaMA 4 Scout auf gebrauchter Hardware trotzdem eine lohnende Erfahrung.
Für Homelab-Enthusiasten mit ausreichend RAM und Geduld ist LLaMA 4 Scout auf gebrauchter Hardware ein faszinierender Einstieg in lokale Frontier-Modelle.
