KI-HAMMER im Homelab! Du willst LLaMA 4 mit unfassbaren 109 MILLIARDEN Parametern auf DEINER eigenen Hardware laufen lassen? Dank der genialen MoE-Architektur geht das AB 500 EURO!
Hier der ultimative Guide für gebrauchte Workstations, Ollama-Setup und ehrliche Performance-Zahlen! ACHTUNG: Keine Marketing-Versprechen – nur harte Fakten!
Was LLaMA 4 ist — und warum es spannend ist
Meta hat im April 2025 LLaMA 4 veröffentlicht – und die Messlatte BRUTAL nach oben geschoben! Das Besondere: LLaMA 4 Scout nutzt eine Mixture-of-Experts (MoE)-Architektur mit 109 MILLIARDEN Parametern!
Der absolute TRICK: Pro Token werden nur ~17 Milliarden aktiv verwendet! Der Rechenaufwand ist damit geringer als bei vergleichbaren Dense-Modellen!
ABER WICHTIG: Trotz MoE muss das gesamte Modell im Speicher liegen! In Q4-Quantisierung sind das ~67 GB! Das sprengt JEDE einzelne Consumer-GPU!
Lösung: CPU-Offloading! Das Modell liegt teils im VRAM, teils im RAM!
Hardware — was du wirklich brauchst
Die Mindestanforderungen für LLaMA 4 Scout:
- GPU: NVIDIA RTX 3090 mit 24 GB VRAM empfohlen!
- System-RAM: Mindestens 64 GB, empfohlen 128 GB (Modell muss komplett in VRAM + RAM Platz finden)!
- CPU: Moderner 8-Kern-Prozessor (Intel Xeon E5, AMD Ryzen 5 5600X+)!
- Speicher: 500 GB SSD (NVMe bevorzugt)!
- OS: Linux (Ubuntu 22.04 oder 24.04)!
VRAM-Warnung: LLaMA 4 Scout Q4 braucht ~67 GB, Q8 sogar ~117 GB! Eine einzelne RTX 3090 reicht NICHT für reine GPU-Inferenz! Ollama nutzt CPU-Offloading – funktioniert, aber langsamer!
Der 500-Euro-Build — Schritt für Schritt
Budget-Option: ~450-600 € Gesamtkosten!
Workstation-Basis
Dell Precision T3610 / T3630 oder HP Z440 (eBay, 80-150 €)!
- Intel Xeon E5 mit 6-8 Kernen!
- Aufrüstbar auf 128 GB DDR4 ECC-RAM!
RAM
128 GB DDR4 ECC (4x 32 GB, gebraucht 60-100 €) – unbedingt einplanen!
GPU
NVIDIA RTX 3090 (24 GB VRAM) gebraucht (eBay, 300-400 €)!
SSD
1 TB NVMe M.2 (neu, 50-70 €)!
Netzteil
750W modular (falls nicht vorhanden, ~50 €)!
MEGA-TIPP: Dell Precision T3610 hat meist 600W-Netzteil! RTX 3090 braucht 350W TDP – unbedingt checken, ob’s reicht!
Die Mid-Range-Option im Bereich 700-900 Euro
Für noch mehr Power:
- Workstation: Dell Precision T5820 oder HP Z6 G4 (200-300 €)!
- Intel Xeon W mit 8-12 Kernen, 128 GB DDR4 ECC!
- GPU: NVIDIA RTX 3090 oder RTX 4090 gebraucht!
LLaMA 4 mit Ollama installieren
Der einfachste Weg! Ollama kapselt llama.cpp mit OpenAI-kompatibler API!
Schritt 1: Ollama installieren!
curl -fsSL https://ollama.com/install.sh | sh
Schritt 2: LLaMA 4 Scout laden!
# Quantisierte Q4-Version (ca. 67 GB)
ollama pull llama4:scout
Download dauert je nach Internet 30-60 Minuten!
Schritt 3: Starten und Chatten!
ollama run llama4:scout
Erwarte Langsamkeit bei CPU-Offloading! Typische Token-Raten auf dem 500-€-Build:
- RTX 3090 + 128 GB RAM: 5-8 Tokens/s!
- Reine CPU (ohne GPU): ~1-2 Tokens/s – kaum nutzbar!
GPU-Offloading optimieren
In /etc/systemd/system/ollama.service.d/override.conf:
[Service]
Environment="OLLAMA_NUM_GPU_LAYERS=33"
Environment="OLLAMA_NUM_CTX=8192"
33 Layer auf der GPU, Rest im RAM – guter Kompromiss für 24 GB VRAM!
Ehrliche Performance-Benchmarks aus dem Test
Auf dem 500-€-Build sind realistisch:
- Einzelne Fragen: 15-30 Sekunden Antwortzeit!
- Coding-Aufgaben: 1-2 Minuten pro Antwort!
- Längere Gespräche: Geschwindigkeit fällt mit wachsendem Kontext!
Kosten-Vergleich — lokal vs. Cloud
Cloud (OpenAI GPT-4): ~$15-30 pro 1 Mio. Tokens!
Lokal (500-€-Build):
- Hardware: 500 € einmalig!
- Strom: ~350 W unter Last = ~25 € / Monat bei 4h täglich!
- NACH 6 MONATEN schon günstiger!
- Nach 2 Jahren hast du massiv gespart!
Fazit — lokale KI ist machbar, mit klaren Grenzen
Ehrliche Ansage: LLaMA 4 Scout lokal ist machbar, aber kein Geschwindigkeits-Wunder auf 500-€-Hardware! Wer echte Profi-Performance will, braucht Multi-GPU-Setups oder Cloud!
Aber: Für Lern-Projekte, Privacy-KI und spannende Experimente ist’s perfekt!
Mein Tipp: Ab 128 GB RAM einsteigen, RTX 3090 gebraucht kaufen, eigenen OpenAI-Ersatz bauen und in einer Woche erste produktive Workflows haben!
Auf Lapalutschi.de kommt bald der große LLaMA-4-vs.-GLM-5.1-Benchmark! Bleib dran!
Verwandte Tutorials auf Lapalutschi.de
LLaMA 4 ist nur ein Modell von vielen: Im Self-Hosted-KI-Komplettguide vergleichen wir Llama, Qwen, DeepSeek und Mixtral — und zeigen, welches Modell zu welcher Hardware passt.
- Ollama auf eigenem Server — die Server-Tiefe mit Quantisierung und API.
- KI-Homelab-Hardware 2026 — Hardware-Auswahl für lokale Inferenz.