#Künstliche Intelligenz · 2 Min. Lesezeit · Tim Rinkel

INFERENZ-HAMMER! vLLM 0.21 schaufelt JETZT 56 Prozent mehr Token pro Sekunde — Model Runner V2 macht Blackwell richtig nass

INFERENZ-HAMMER! vLLM 0.21 schaufelt JETZT 56 Prozent mehr Token pro Sekunde — Model Runner V2 macht Blackwell richtig nass

UNGLAUBLICH: Das vLLM-Team hat am 15. Mai 2026 die Version 0.21.0 veroeffentlicht — und damit die zweite Generation des Model Runners (MRV2) als Default eingebaut. Ergebnis: bis zu 56 Prozent mehr Durchsatz auf Nvidia GB200, kombiniert mit deutlich besserer Latenz-Konstanz unter Last.

SCHOCK: GPU-native Triton-Kernels + Async-Scheduling

Model Runner V2 nutzt GPU-native Triton-Kernels direkt fuer Forward-Passes und kombiniert das mit asynchroner Scheduling-Pipeline. Die alte Python-Scheduler-Schleife wandert in CUDA-Streams, das Token-Batching erfolgt komplett auf der GPU. Auf H100 sind 25 bis 35 Prozent Speedup realistisch, auf Blackwell (GB200) erreichen Tests sogar 56 Prozent mehr Tokens pro Sekunde.

HAMMER: FP8 + KV-Offload + Hybrid Memory Allocator

Schon in 0.20 hatten FP8-Inferenz und der Hybrid Memory Allocator (HMA) Einzug gehalten. 0.21 zieht das weiter: KV-Offload kombiniert sich jetzt sauber mit HMA und Sliding-Window-Group-Support. Damit passen Llama 3.1 405B oder Mixtral 8x22B auf vier H100 inklusive 32 K Kontext — das war vorher knapp.

NEU: Cohere MoE und Moondream3

vLLM unterstuetzt in 0.21 neue Modell-Architekturen: MiMo-V2.5, Laguna XS.2, Moondream3, Cohere MoE und das TOKENSPEED_MLA-Attention-Backend speziell fuer Blackwell. Wer Mistrals Magistral Medium 1.1 mit Reasoning-Modus deployen will, faehrt mit 0.21 deutlich runder als noch mit 0.19.

FAZIT: Production-Inferenz wird gerade neu definiert

Wenn du eigene LLM-Inferenz im Homelab oder im Rechenzentrum betreibst, ist vLLM 0.21 ein quasi-pflicht-Update. Die Konfiguration aendert sich nicht — du installierst per pip install -U vllm oder ziehst das Docker-Image vllm/vllm-openai:v0.21.0.

EXTRA-TIPP: Wenn du auf einer einzigen H100 laeufst, schau dir das --enable-prefix-caching-Flag an. Zusammen mit MRV2 reduziert es die Latenz bei wiederkehrenden System-Prompts um 30 bis 50 Prozent — gerade fuer Agent-Workflows wertvoll.

Haeufige Fragen

Was ist neu in vLLM 0.21?
Model Runner V2 (MRV2) mit GPU-nativen Triton-Kernels, asynchronem Scheduling, neuem TOKENSPEED_MLA-Backend fuer Blackwell, KV-Offload+HMA-Integration und Support fuer Cohere MoE, Moondream3 und MiMo-V2.5.
Lohnt sich das Update sofort oder kann ich warten?
Wenn du LLMs in Produktion betreibst: sofort. 25 bis 56 Prozent mehr Durchsatz bei gleicher Hardware ist signifikant. Fuer Forschungs-Setups kannst du auf 0.21.1 warten, falls Stabilitaetsprobleme auftauchen.
Bricht das Update bestehende Konfigurationen?
Nein, MRV2 ist Drop-in-kompatibel zu MRV1. Wer noch Probleme hat, kann mit –runner v1 die alte Pipeline aktivieren — Mistral-Reasoning- und Sliding-Window-Modelle profitieren stark vom Default.
Wie fuehre ich das Update durch?
pip install -U vllm im venv oder Docker-Image vllm/vllm-openai:v0.21.0 ziehen. Konfigurationen in serve-Argumenten muessen nicht angepasst werden.

Quellen:

Kommentar hinterlassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert