Mistral Medium 3.5: Open-Weight-LLM mit 256K Kontext

HAMMER-NACHRICHT für jeden Self-Hoster! Mistral hat heimlich, still und leise Medium 3.5 rausgehauen — und das Ding hat es in sich. 128 Milliarden Parameter, 256.000 Token Kontext und das Beste: Die Gewichte sind OFFEN. Wer sich einen GPU-Server gönnt, bekommt damit ein Top-Modell direkt ins Homelab.

SCHOCK-MOMENT: Ein Modell für ALLES!

Bisher musstest du zwischen Chat-Modell, Reasoning-Modell und Coding-Modell wechseln. Mistral räumt mit der Trickserei auf. Medium 3.5 ist EIN Modell — und macht alles. Chat, logisches Schließen und Programmieren laufen über dieselbe 128-B-Dense-Architektur.

Die Benchmarks sind kein Marketing-Geschwätz: 77,6 Prozent auf SWE-Bench Verified, 91,4 Punkte auf τ³-Telecom. Das sind Werte, die vor wenigen Monaten noch GPT-5 vorbehalten waren — jetzt fährt Mistral sie zum Bruchteil des Preises ein.

UNGLAUBLICH: 256K Kontext — und du kannst es selbst hosten

Das ist der eigentliche Wahnsinn: Die Gewichte stehen unter modifizierter MIT-Lizenz. Vier H100 oder vier AMD MI300X reichen Mistral zufolge schon, um das Modell selbst zu betreiben. Für dich heißt das: Kein API-Lock-in, keine Daten-Schleudern in fremde Clouds — du kannst Medium 3.5 in dein eigenes Rack stellen und musst dafür NICHT Anthropic, OpenAI oder Google um Erlaubnis fragen.

PREIS-HAMMER bei Mistral!

Wer keinen GPU-Cluster hat, kommt günstig per API rein. 1,50 US-Dollar pro Million Input-Token, 7,50 US-Dollar pro Million Output-Token. Vergleich gefällig? GPT-5.5 Pro ruft 180 Dollar für eine Million Output-Token auf. Claude Opus 4.7 spielt in einer ähnlichen Liga. Mistral unterbietet das ALLES.

VIBE: Mistrals Antwort auf Codex und Claude Code

Mistral hat noch was draufgepackt: Vibe Remote Agents. Statt deinen Laptop stundenlang offen zu halten, startest du im Cloud-Workspace eine Coding-Session — und Medium 3.5 läuft im Hintergrund weiter. Refactor, Test, Patch, commit. Du holst dir das Ergebnis später ab. Genau wie bei Anthropics Agent Skills, nur eben mit offenem Modell.

Im neuen Le Chat Work-Modus bekommst du das Ganze in einer Oberfläche: Multi-Step-Aufgaben, Tool-Calls und ein Gedächtnis, das nicht alle drei Minuten neu startet.

So testest du Medium 3.5 in 5 MINUTEN

Variante 1 — API: API-Key bei mistral.ai holen, Modellname mistral-medium-3-5-26-04 in deinem Tool eintragen, fertig. Variante 2 — Self-Host: Gewichte über die offizielle Hugging-Face-Spiegelung pullen, vLLM oder TensorRT-LLM bauen, vier GPUs anschließen.

EXTRA-TIPP: Was bedeutet das für deinen Stack?

Wenn du bisher dein lokales Coding-Setup auf Llama 3.3 70B oder Qwen 3 72B gefahren hast — SOFORT Medium 3.5 in den Vergleichstest schicken. Bei Reasoning- und Tool-Use-Aufgaben liegt das Modell deutlich vorn. Achte trotzdem auf Quantisierung: 128B in voller fp16-Präzision frisst rund 256 GB VRAM. Mit 4-bit-Quantisierung passt es auf zwei H100 — die Community wird das nachliefern.

FAZIT: Mistral mischt die Open-Weight-Liga AUF

Open Source war 2025 oft die zweite Wahl: gut zum Spielen, zu schwach für ernste Arbeit. Medium 3.5 zerlegt diese Erzählung. Wer Datensouveränität ernst nimmt und einen GPU-Server stehen hat, braucht keinen API-Vertrag mehr. Und wer einfach billig coden will, bekommt es auch.

Häufige Fragen

Was ist neu an Mistral Medium 3.5?

Medium 3.5 fasst Chat, Reasoning und Coding in einem einzigen 128B-Dense-Modell zusammen. Das Kontextfenster liegt bei 256.000 Token, und das Modell erreicht laut Mistral 77,6 % auf SWE-Bench Verified sowie 91,4 auf τ³-Telecom — ein deutlicher Sprung gegenüber dem Vorgänger.

Was kostet Mistral Medium 3.5?

Über die Mistral-API kostet das Modell 1,50 US-Dollar pro Million Input-Token und 7,50 US-Dollar pro Million Output-Token. Das ist deutlich günstiger als Claude Opus 4.7 und GPT-5.5 Pro und macht Medium 3.5 für viele Coding-Workflows attraktiv.

Kann ich Medium 3.5 selbst hosten?

Ja. Die Gewichte stehen unter modifizierter MIT-Lizenz zum Download bereit und das Modell läuft laut Mistral schon auf vier GPU-Karten — etwa vier H100 oder MI300X. Für Homelabs ohne H100 ist es trotzdem zu groß; quantisierte Builds in der Community sind in Arbeit.

Wofür ist Vibe gut?

Vibe ist Mistrals neuer Remote-Agent-Stack auf Basis von Medium 3.5. Du kannst lange laufende Coding-Sessions in der Cloud anstoßen, statt sie lokal offen zu halten. Le Chat hat jetzt einen passenden Work-Modus für Multi-Step-Aufgaben.

MISTRAL-HAMMER! Medium 3.5 mit 128 Milliarden Parametern offen geknallt – DEIN Homelab kann JETZT mitspielen!