Mistral Small 4: Open-Source-LLM mit 119B & 256k Context

Frankreich KNALLT JETZT sein nächstes KI-Schwergewicht raus: Mistral Small 4 ist da – und es vereint drei früher getrennte Modelle in einem einzigen, vollständig Open-Source-Release. So einfach kannst du Reasoning, Vision und Coding selbst hosten.

HAMMER: Drei Modelle in einem Container

Bisher musstest du dich entscheiden: Magistral fürs harte Denken, Pixtral für Bilder, Devstral fürs Programmieren. Mit Small 4 räumt Mistral diese Trennung weg – ein einziges Mixture-of-Experts-Modell macht jetzt alles. Für dich heißt das: ein Container, ein Endpoint, drei Skills.

SO STARK schlägt das Ding

Mistral nennt 119 Milliarden Parameter total und nur 6 Milliarden aktive Parameter pro Token. Heißt: groß im Wissen, schlank in der Inferenz. In den eigenen Benchmarks knackt Small 4 sowohl Magistral als auch Pixtral und liegt beim Coding ein paar Punkte unter Devstral – aber dafür bekommt es jetzt eben alles aus einer Hand.

MEGA-CONTEXT: 256.000 Tokens am Stück

Der 256k-Context ist die zweite Schlagzeile. Damit fütterst du komplette Codebases, lange juristische Verträge oder einen Tag Slack-Logs am Stück und bekommst zusammenhängende Antworten. Llama 4 Scout schafft offiziell zwar mehr, fällt aber bei langem Context spürbar ab – Small 4 hält die Substanz.

EXTRA-TIPP: vLLM macht es flott

Auf zwei H100-80GB kommst du mit vLLM 0.6+ auf rund 90 Tokens pro Sekunde im FP8-Mode. Das reicht für interaktive Chat-Interfaces – auch im Self-Hosted-Setup. Wer kleiner einsteigen will, nimmt SGLang auf einer einzelnen H100 mit aggressiver Quantisierung.

OPEN SOURCE im echten Sinn

Mistral lizenziert Small 4 unter Apache 2.0 – also auch kommerziell frei. Du darfst das Modell fine-tunen, in eigene Produkte schmieden und auf dem eigenen Server hosten, ohne mit Mistral verhandeln zu müssen. Das ist 2026 leider keine Selbstverständlichkeit mehr: Llama 4 hat eine deutlich engere Lizenz, Qwen mauert beim Coding-Modell.

FAZIT: Pflicht-Download für KI-Self-Hoster

Mit Mistral Small 4 bekommst du ein wirklich offenes Modell, das beim Reasoning, bei Bildern und beim Code mithalten kann. Wer sein KI-Homelab betreibt, lädt sich die Modell-Card auf Hugging Face und probiert es aus – die Lizenz ist freundlich, der Context ist riesig und die Hardware-Anforderungen sind zwar happig, aber machbar.

Häufige Fragen

Was ist neu an Small 4 gegenüber Small 3?

Mistral hat drei früher getrennte Modelle in eins gepackt: Magistral fürs Reasoning, Pixtral für Bilder und Devstral fürs Coding. Small 4 macht jetzt alle drei Sachen in einem Mixture-of-Experts-Modell mit 119B Gesamt-Parametern, von denen pro Token nur 6B aktiv sind – das macht es überraschend effizient für seine Größe.

Wie viel VRAM brauche ich daheim?

Mit FP8-Quantisierung passt Small 4 in zwei H100-80GB oder vier RTX 6000 Ada. Wer in INT4 quantisiert, kommt mit einer einzelnen RTX A6000 (48 GB) klar, verliert aber spürbar Qualität bei Reasoning. Für die meisten Homelabber ist das Modell daher eher Cloud- als Lokal-Material.

Welche Lizenz hat das Ding?

Apache-2.0 – also wirklich frei, auch kommerziell. Kein Mistral-Research-License-Trick wie bei früheren Releases. Du darfst das Modell auf eigenen Servern hosten, fine-tunen und in Produkte einbauen, ohne Mistral was zu zahlen.

Lohnt es sich gegenüber Llama 4 oder Qwen 3.6?

Small 4 schlägt in den meisten Benchmarks Llama 4 Scout und liegt knapp hinter Qwen 3.6 27B beim Coding. Stark ist es vor allem bei Vision-Aufgaben und beim 256k-Context, der weniger zerfällt als bei vielen Konkurrenten.

Quellen: Mistral AI Blog, llm-stats.com, Hugging Face Model Card.

MISTRAL-HAMMER! Small 4 verschmilzt JETZT drei Modelle zu einem 119-Milliarden-Monster