#Homelab · 3 Min. Lesezeit · Tim Rinkel

LLaMA 4 lokal betreiben — ein 109-Milliarden-Modell auf einem 500-Euro-Server

LLaMA 4 Scout lokal betreiben auf günstiger gebrauchter Homelab-Hardware – Schritt-für-Schritt Anleitung mit Ollama, Hardware-Tipps und Kostenvergleich.

LLaMA 4 lokal betreiben — ein 109-Milliarden-Modell auf einem 500-Euro-Server

KI-HAMMER im Homelab! Du willst LLaMA 4 mit unfassbaren 109 MILLIARDEN Parametern auf DEINER eigenen Hardware laufen lassen? Dank der genialen MoE-Architektur geht das AB 500 EURO!

Hier der ultimative Guide für gebrauchte Workstations, Ollama-Setup und ehrliche Performance-Zahlen! ACHTUNG: Keine Marketing-Versprechen – nur harte Fakten!

Was LLaMA 4 ist — und warum es spannend ist

Meta hat im April 2025 LLaMA 4 veröffentlicht – und die Messlatte BRUTAL nach oben geschoben! Das Besondere: LLaMA 4 Scout nutzt eine Mixture-of-Experts (MoE)-Architektur mit 109 MILLIARDEN Parametern!

Der absolute TRICK: Pro Token werden nur ~17 Milliarden aktiv verwendet! Der Rechenaufwand ist damit geringer als bei vergleichbaren Dense-Modellen!

ABER WICHTIG: Trotz MoE muss das gesamte Modell im Speicher liegen! In Q4-Quantisierung sind das ~67 GB! Das sprengt JEDE einzelne Consumer-GPU!

Lösung: CPU-Offloading! Das Modell liegt teils im VRAM, teils im RAM!

Hardware — was du wirklich brauchst

Die Mindestanforderungen für LLaMA 4 Scout:

  • GPU: NVIDIA RTX 3090 mit 24 GB VRAM empfohlen!
  • System-RAM: Mindestens 64 GB, empfohlen 128 GB (Modell muss komplett in VRAM + RAM Platz finden)!
  • CPU: Moderner 8-Kern-Prozessor (Intel Xeon E5, AMD Ryzen 5 5600X+)!
  • Speicher: 500 GB SSD (NVMe bevorzugt)!
  • OS: Linux (Ubuntu 22.04 oder 24.04)!

VRAM-Warnung: LLaMA 4 Scout Q4 braucht ~67 GB, Q8 sogar ~117 GB! Eine einzelne RTX 3090 reicht NICHT für reine GPU-Inferenz! Ollama nutzt CPU-Offloading – funktioniert, aber langsamer!

Der 500-Euro-Build — Schritt für Schritt

Budget-Option: ~450-600 € Gesamtkosten!

Workstation-Basis

Dell Precision T3610 / T3630 oder HP Z440 (eBay, 80-150 €)!

  • Intel Xeon E5 mit 6-8 Kernen!
  • Aufrüstbar auf 128 GB DDR4 ECC-RAM!

RAM

128 GB DDR4 ECC (4x 32 GB, gebraucht 60-100 €) – unbedingt einplanen!

GPU

NVIDIA RTX 3090 (24 GB VRAM) gebraucht (eBay, 300-400 €)!

SSD

1 TB NVMe M.2 (neu, 50-70 €)!

Netzteil

750W modular (falls nicht vorhanden, ~50 €)!

MEGA-TIPP: Dell Precision T3610 hat meist 600W-Netzteil! RTX 3090 braucht 350W TDPunbedingt checken, ob’s reicht!

Die Mid-Range-Option im Bereich 700-900 Euro

Für noch mehr Power:

  • Workstation: Dell Precision T5820 oder HP Z6 G4 (200-300 €)!
  • Intel Xeon W mit 8-12 Kernen, 128 GB DDR4 ECC!
  • GPU: NVIDIA RTX 3090 oder RTX 4090 gebraucht!

LLaMA 4 mit Ollama installieren

Der einfachste Weg! Ollama kapselt llama.cpp mit OpenAI-kompatibler API!

Schritt 1: Ollama installieren!

curl -fsSL https://ollama.com/install.sh | sh

Schritt 2: LLaMA 4 Scout laden!

# Quantisierte Q4-Version (ca. 67 GB)
ollama pull llama4:scout

Download dauert je nach Internet 30-60 Minuten!

Schritt 3: Starten und Chatten!

ollama run llama4:scout

Erwarte Langsamkeit bei CPU-Offloading! Typische Token-Raten auf dem 500-€-Build:

  • RTX 3090 + 128 GB RAM: 5-8 Tokens/s!
  • Reine CPU (ohne GPU): ~1-2 Tokens/skaum nutzbar!

GPU-Offloading optimieren

In /etc/systemd/system/ollama.service.d/override.conf:

[Service]
Environment="OLLAMA_NUM_GPU_LAYERS=33"
Environment="OLLAMA_NUM_CTX=8192"

33 Layer auf der GPU, Rest im RAM – guter Kompromiss für 24 GB VRAM!

Ehrliche Performance-Benchmarks aus dem Test

Auf dem 500-€-Build sind realistisch:

  • Einzelne Fragen: 15-30 Sekunden Antwortzeit!
  • Coding-Aufgaben: 1-2 Minuten pro Antwort!
  • Längere Gespräche: Geschwindigkeit fällt mit wachsendem Kontext!

Kosten-Vergleich — lokal vs. Cloud

Cloud (OpenAI GPT-4): ~$15-30 pro 1 Mio. Tokens!

Lokal (500-€-Build):

  • Hardware: 500 € einmalig!
  • Strom: ~350 W unter Last = ~25 € / Monat bei 4h täglich!
  • NACH 6 MONATEN schon günstiger!
  • Nach 2 Jahren hast du massiv gespart!

Fazit — lokale KI ist machbar, mit klaren Grenzen

Ehrliche Ansage: LLaMA 4 Scout lokal ist machbar, aber kein Geschwindigkeits-Wunder auf 500-€-Hardware! Wer echte Profi-Performance will, braucht Multi-GPU-Setups oder Cloud!

Aber: Für Lern-Projekte, Privacy-KI und spannende Experimente ist’s perfekt!

Mein Tipp: Ab 128 GB RAM einsteigen, RTX 3090 gebraucht kaufen, eigenen OpenAI-Ersatz bauen und in einer Woche erste produktive Workflows haben!

Auf Lapalutschi.de kommt bald der große LLaMA-4-vs.-GLM-5.1-Benchmark! Bleib dran!

Verwandte Tutorials auf Lapalutschi.de

Kommentar hinterlassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert