UNGLAUBLICH: Das vLLM-Team hat am 15. Mai 2026 die Version 0.21.0 veroeffentlicht — und damit die zweite Generation des Model Runners (MRV2) als Default eingebaut. Ergebnis: bis zu 56 Prozent mehr Durchsatz auf Nvidia GB200, kombiniert mit deutlich besserer Latenz-Konstanz unter Last.
SCHOCK: GPU-native Triton-Kernels + Async-Scheduling
Model Runner V2 nutzt GPU-native Triton-Kernels direkt fuer Forward-Passes und kombiniert das mit asynchroner Scheduling-Pipeline. Die alte Python-Scheduler-Schleife wandert in CUDA-Streams, das Token-Batching erfolgt komplett auf der GPU. Auf H100 sind 25 bis 35 Prozent Speedup realistisch, auf Blackwell (GB200) erreichen Tests sogar 56 Prozent mehr Tokens pro Sekunde.
HAMMER: FP8 + KV-Offload + Hybrid Memory Allocator
Schon in 0.20 hatten FP8-Inferenz und der Hybrid Memory Allocator (HMA) Einzug gehalten. 0.21 zieht das weiter: KV-Offload kombiniert sich jetzt sauber mit HMA und Sliding-Window-Group-Support. Damit passen Llama 3.1 405B oder Mixtral 8x22B auf vier H100 inklusive 32 K Kontext — das war vorher knapp.
NEU: Cohere MoE und Moondream3
vLLM unterstuetzt in 0.21 neue Modell-Architekturen: MiMo-V2.5, Laguna XS.2, Moondream3, Cohere MoE und das TOKENSPEED_MLA-Attention-Backend speziell fuer Blackwell. Wer Mistrals Magistral Medium 1.1 mit Reasoning-Modus deployen will, faehrt mit 0.21 deutlich runder als noch mit 0.19.
FAZIT: Production-Inferenz wird gerade neu definiert
Wenn du eigene LLM-Inferenz im Homelab oder im Rechenzentrum betreibst, ist vLLM 0.21 ein quasi-pflicht-Update. Die Konfiguration aendert sich nicht — du installierst per pip install -U vllm oder ziehst das Docker-Image vllm/vllm-openai:v0.21.0.
EXTRA-TIPP: Wenn du auf einer einzigen H100 laeufst, schau dir das --enable-prefix-caching-Flag an. Zusammen mit MRV2 reduziert es die Latenz bei wiederkehrenden System-Prompts um 30 bis 50 Prozent — gerade fuer Agent-Workflows wertvoll.
Haeufige Fragen
Was ist neu in vLLM 0.21?
Lohnt sich das Update sofort oder kann ich warten?
Bricht das Update bestehende Konfigurationen?
Wie fuehre ich das Update durch?
Quellen: