HAMMER aus San Francisco: Cloudflare hat im Mai 2026 die Workers-AI-Plattform mit drei dicken Modellen aufgepumpt, die DEINE Edge-LLM-Strategie auf den Kopf stellen. Konkret: Google Gemma 4 26B A4B, das Mixture-of-Experts-Modell aus Gemini-3-Forschung, Deepgram Aura 2 als Text-to-Speech-Engine fuer Deutsch und Englisch, und IBM Granite 4.0 Hybrid Micro als kompakter Tool-Calling-Spezialist.
UNGLAUBLICH: Gemma 4 mit 256K Kontext fuer einen Bruchteil
Das Modell @cf/google/gemma-4-26b-a4b-it ist ein Mixture-of-Experts: 26 Milliarden Parameter gesamt, aber nur 4 Milliarden aktiv pro Forward-Pass. Heisst: Du bekommst Qualitaet auf 26B-Niveau, zahlst aber die Inferenz-Kosten eines 4B-Modells. Cloudflare verspricht 4-fache Geschwindigkeit gegenueber dem Vorgaenger-Gemma-3-27B bei vergleichbarer Qualitaet.
Plus: 256K Kontext, native Vision-Support, Built-in-Thinking-Mode und Function-Calling. Ideal fuer Edge-Agenten, die im Tab-Hintergrund laufen — Cloudflare deployt das Modell auf allen 330 Workers-AI-Standorten, also lokaler als jede LLM-Cloud.
BRUTAL: Aura 2 macht DEUTSCH bald
Endlich. Deepgram Aura ist seit Q4/2025 das beste „menschlich klingende“ TTS am Markt, aber bisher nur englisch. Mit Aura 2 kommen jetzt:
- aura-2-en — Englisch in mehreren Stimmen, naturalistische Atempausen.
- aura-2-es — Spanisch.
- Deutsch ist fuer Q3 2026 angekuendigt, hatte Cloudflare auf der Workers-Connect-Konferenz schon verraten.
Wer aktuell mit ElevenLabs unterwegs ist und Latenz hat, sollte Aura 2 testen — Cloudflare verspricht Sub-200-ms-Time-to-First-Audio auf Edge-Standorten.
EXTRA-TIPP: IBM Granite 4.0 Hybrid Micro
Das Modell @cf/ibm-granite/granite-4.0-h-micro ist klein (ca. 3B Parameter), aber stark beim Tool-Calling und Instruction-Following. Wer einen Agenten baut, der Function-Calls korrekt auswerten und mehrere Tools chainen soll, ist hier billiger und schneller dran als mit Gemma 4. Perfekt fuer Embedded-Use-Cases und Sub-Agenten in einer Workers-AI-Pipeline.
SCHOCK: Kimi K2.5 wird ab 30. Mai zwangs-umgeleitet
Ein Detail aus dem Changelog, das DICH beissen wird, wenn du Kimi-K2.5 produktiv nutzt: Ab dem 30. Mai 2026 leitet Cloudflare alle Anfragen automatisch auf Kimi K2.6 um, das hoeher bepreist ist. Wer die Migration verpasst und keine Budgets aktualisiert, sieht morgen oder uebermorgen ploetzlich erhoehte Rechnungen.
FAZIT: Edge-AI wird ernst
Cloudflare schaufelt mit Vollgas die starken Open-Weight-Modelle in den Edge. Wer noch immer alles ueber OpenAI- oder Anthropic-API laufen laesst, sollte spaetestens jetzt ueber einen Hybrid-Stack nachdenken: einfache Klassifikation und Routing auf Workers-AI-Edge, Long-Form-Reasoning auf Claude oder GPT. Spart Latenz und massiv Cash.
Haeufige Fragen
Was kostet Gemma 4 auf Workers AI?
Brauche ich einen Cloudflare-Account fuer Workers AI?
Ist Aura 2 DSGVO-konform?
Was passiert, wenn Cloudflare ein Modell deprecated?
Quellen