HAMMER-NACHRICHT für jeden Self-Hoster! Mistral hat heimlich, still und leise Medium 3.5 rausgehauen — und das Ding hat es in sich. 128 Milliarden Parameter, 256.000 Token Kontext und das Beste: Die Gewichte sind OFFEN. Wer sich einen GPU-Server gönnt, bekommt damit ein Top-Modell direkt ins Homelab.
SCHOCK-MOMENT: Ein Modell für ALLES!
Bisher musstest du zwischen Chat-Modell, Reasoning-Modell und Coding-Modell wechseln. Mistral räumt mit der Trickserei auf. Medium 3.5 ist EIN Modell — und macht alles. Chat, logisches Schließen und Programmieren laufen über dieselbe 128-B-Dense-Architektur.
Die Benchmarks sind kein Marketing-Geschwätz: 77,6 Prozent auf SWE-Bench Verified, 91,4 Punkte auf τ³-Telecom. Das sind Werte, die vor wenigen Monaten noch GPT-5 vorbehalten waren — jetzt fährt Mistral sie zum Bruchteil des Preises ein.
UNGLAUBLICH: 256K Kontext — und du kannst es selbst hosten
Das ist der eigentliche Wahnsinn: Die Gewichte stehen unter modifizierter MIT-Lizenz. Vier H100 oder vier AMD MI300X reichen Mistral zufolge schon, um das Modell selbst zu betreiben. Für dich heißt das: Kein API-Lock-in, keine Daten-Schleudern in fremde Clouds — du kannst Medium 3.5 in dein eigenes Rack stellen und musst dafür NICHT Anthropic, OpenAI oder Google um Erlaubnis fragen.
PREIS-HAMMER bei Mistral!
Wer keinen GPU-Cluster hat, kommt günstig per API rein. 1,50 US-Dollar pro Million Input-Token, 7,50 US-Dollar pro Million Output-Token. Vergleich gefällig? GPT-5.5 Pro ruft 180 Dollar für eine Million Output-Token auf. Claude Opus 4.7 spielt in einer ähnlichen Liga. Mistral unterbietet das ALLES.
VIBE: Mistrals Antwort auf Codex und Claude Code
Mistral hat noch was draufgepackt: Vibe Remote Agents. Statt deinen Laptop stundenlang offen zu halten, startest du im Cloud-Workspace eine Coding-Session — und Medium 3.5 läuft im Hintergrund weiter. Refactor, Test, Patch, commit. Du holst dir das Ergebnis später ab. Genau wie bei Anthropics Agent Skills, nur eben mit offenem Modell.
Im neuen Le Chat Work-Modus bekommst du das Ganze in einer Oberfläche: Multi-Step-Aufgaben, Tool-Calls und ein Gedächtnis, das nicht alle drei Minuten neu startet.
So testest du Medium 3.5 in 5 MINUTEN
Variante 1 — API: API-Key bei mistral.ai holen, Modellname mistral-medium-3-5-26-04 in deinem Tool eintragen, fertig. Variante 2 — Self-Host: Gewichte über die offizielle Hugging-Face-Spiegelung pullen, vLLM oder TensorRT-LLM bauen, vier GPUs anschließen.
EXTRA-TIPP: Was bedeutet das für deinen Stack?
Wenn du bisher dein lokales Coding-Setup auf Llama 3.3 70B oder Qwen 3 72B gefahren hast — SOFORT Medium 3.5 in den Vergleichstest schicken. Bei Reasoning- und Tool-Use-Aufgaben liegt das Modell deutlich vorn. Achte trotzdem auf Quantisierung: 128B in voller fp16-Präzision frisst rund 256 GB VRAM. Mit 4-bit-Quantisierung passt es auf zwei H100 — die Community wird das nachliefern.
FAZIT: Mistral mischt die Open-Weight-Liga AUF
Open Source war 2025 oft die zweite Wahl: gut zum Spielen, zu schwach für ernste Arbeit. Medium 3.5 zerlegt diese Erzählung. Wer Datensouveränität ernst nimmt und einen GPU-Server stehen hat, braucht keinen API-Vertrag mehr. Und wer einfach billig coden will, bekommt es auch.