#Hosting · 3 Min. Lesezeit · Tim Rinkel

CLOUDFLARE-HAMMER! Workers AI zieht JETZT Gemma 4, IBM Granite und Deepgram Aura 2 in den Edge — DEIN LLM laeuft direkt vor der Haustuer

CLOUDFLARE-HAMMER! Workers AI zieht JETZT Gemma 4, IBM Granite und Deepgram Aura 2 in den Edge — DEIN LLM laeuft direkt vor der Haustuer

HAMMER aus San Francisco: Cloudflare hat im Mai 2026 die Workers-AI-Plattform mit drei dicken Modellen aufgepumpt, die DEINE Edge-LLM-Strategie auf den Kopf stellen. Konkret: Google Gemma 4 26B A4B, das Mixture-of-Experts-Modell aus Gemini-3-Forschung, Deepgram Aura 2 als Text-to-Speech-Engine fuer Deutsch und Englisch, und IBM Granite 4.0 Hybrid Micro als kompakter Tool-Calling-Spezialist.

UNGLAUBLICH: Gemma 4 mit 256K Kontext fuer einen Bruchteil

Das Modell @cf/google/gemma-4-26b-a4b-it ist ein Mixture-of-Experts: 26 Milliarden Parameter gesamt, aber nur 4 Milliarden aktiv pro Forward-Pass. Heisst: Du bekommst Qualitaet auf 26B-Niveau, zahlst aber die Inferenz-Kosten eines 4B-Modells. Cloudflare verspricht 4-fache Geschwindigkeit gegenueber dem Vorgaenger-Gemma-3-27B bei vergleichbarer Qualitaet.

Plus: 256K Kontext, native Vision-Support, Built-in-Thinking-Mode und Function-Calling. Ideal fuer Edge-Agenten, die im Tab-Hintergrund laufen — Cloudflare deployt das Modell auf allen 330 Workers-AI-Standorten, also lokaler als jede LLM-Cloud.

BRUTAL: Aura 2 macht DEUTSCH bald

Endlich. Deepgram Aura ist seit Q4/2025 das beste „menschlich klingende“ TTS am Markt, aber bisher nur englisch. Mit Aura 2 kommen jetzt:

  • aura-2-en — Englisch in mehreren Stimmen, naturalistische Atempausen.
  • aura-2-es — Spanisch.
  • Deutsch ist fuer Q3 2026 angekuendigt, hatte Cloudflare auf der Workers-Connect-Konferenz schon verraten.

Wer aktuell mit ElevenLabs unterwegs ist und Latenz hat, sollte Aura 2 testen — Cloudflare verspricht Sub-200-ms-Time-to-First-Audio auf Edge-Standorten.

EXTRA-TIPP: IBM Granite 4.0 Hybrid Micro

Das Modell @cf/ibm-granite/granite-4.0-h-micro ist klein (ca. 3B Parameter), aber stark beim Tool-Calling und Instruction-Following. Wer einen Agenten baut, der Function-Calls korrekt auswerten und mehrere Tools chainen soll, ist hier billiger und schneller dran als mit Gemma 4. Perfekt fuer Embedded-Use-Cases und Sub-Agenten in einer Workers-AI-Pipeline.

SCHOCK: Kimi K2.5 wird ab 30. Mai zwangs-umgeleitet

Ein Detail aus dem Changelog, das DICH beissen wird, wenn du Kimi-K2.5 produktiv nutzt: Ab dem 30. Mai 2026 leitet Cloudflare alle Anfragen automatisch auf Kimi K2.6 um, das hoeher bepreist ist. Wer die Migration verpasst und keine Budgets aktualisiert, sieht morgen oder uebermorgen ploetzlich erhoehte Rechnungen.

FAZIT: Edge-AI wird ernst

Cloudflare schaufelt mit Vollgas die starken Open-Weight-Modelle in den Edge. Wer noch immer alles ueber OpenAI- oder Anthropic-API laufen laesst, sollte spaetestens jetzt ueber einen Hybrid-Stack nachdenken: einfache Klassifikation und Routing auf Workers-AI-Edge, Long-Form-Reasoning auf Claude oder GPT. Spart Latenz und massiv Cash.

Haeufige Fragen

Was kostet Gemma 4 auf Workers AI?
Workers AI rechnet pro Neuron-zeit ab, nicht pro Token wie OpenAI. Im Pricing-Calculator landet @cf/google/gemma-4-26b-a4b-it bei rund 0,18 USD pro Million Input-Tokens und 0,55 USD pro Million Output-Tokens. Damit liegt das Modell deutlich unter GPT-4o-mini und auf Augenhoehe mit Mistral Small.
Brauche ich einen Cloudflare-Account fuer Workers AI?
Ja. Du legst einen kostenlosen Cloudflare-Konto an, aktivierst Workers AI und bekommst monatlich 10.000 Neuronen Free Tier. Fuer Produktion brauchst du den Workers-Paid-Plan (5 USD/Monat) oder den AI-Pay-as-you-go-Tarif.
Ist Aura 2 DSGVO-konform?
Cloudflare verarbeitet Inferenz-Daten standardmaessig in dem Workers-AI-Standort, der dem Endnutzer am naechsten ist. Fuer EU-Anwender heisst das: EU-Datenfluss. Ein eigener Auftragsverarbeitungsvertrag (AVV) ist im Cloudflare-Enterprise-Plan enthalten, im Pay-as-you-go-Tarif musst du dich selbst um die DPA kuemmern.
Was passiert, wenn Cloudflare ein Modell deprecated?
Cloudflare kuendigt Deprecations 60 Tage vorher im Changelog an. Beispiel: Kimi K2.5 wird ab 30. Mai 2026 auf K2.6 umgeleitet — bei hoeheren Preisen. Setze dir am besten einen Slack- oder Pushover-Alert auf den Cloudflare-Status-Feed, sonst zahlt dein Worker irgendwann ploetzlich das Doppelte.

Quellen

Kommentar hinterlassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert