#Hosting · 3 Min. Lesezeit · Tim Rinkel

CLOUDFLARE-HAMMER! Vier neue KI-Modelle laufen JETZT direkt am Edge – so testest du sie in 5 MINUTEN!

CLOUDFLARE-HAMMER! Vier neue KI-Modelle laufen JETZT direkt am Edge – so testest du sie in 5 MINUTEN!

Vier neue Modelle, kein Extra-Key. Cloudflare hat Workers AI am 8. April erweitert. Die Modelle laufen direkt am Edge und sind ab sofort in AI Search nutzbar – ohne separaten Provider-Vertrag.

SCHOCK: Long Context als Allgemeingut

Das spannendste neue Modell ist GLM-4.7-Flash aus dem Hause Zhipu AI. Es bietet 131.072 Token Kontextfenster und ist speziell auf Long-Document-Summary und Retrieval optimiert. Wer in Workers AI bisher nur kleinere Modelle nutzen konnte, kriegt damit eine ernsthafte Alternative für Vertrags-, Code- und PDF-Analyse.

Qwen3-30B-A3B hängt nebendran als Mixture-of-Experts. Trotz 30 Milliarden Parametern aktiviert das Modell pro Forward-Pass nur 3 Milliarden – Inferenz wird billig, ohne Qualität zu kosten.

UNGLAUBLICH: Zwei Embedding-Modelle für RAG-Stacks

Wer mit RAG bastelt, ist über Qwen3-Embedding-0.6B und EmbeddingGemma-300M dankbar. Das Qwen-Modell schluckt bis zu 4.096 Tokens auf einmal – also komplette Dokumenten-Chunks – und liefert vergleichsweise dichte Vektoren. EmbeddingGemma kommt mit 768-Dimension-Output und ist auf niedrige Latenz getrimmt.

Beide Modelle laufen direkt am Cloudflare-Edge. Das senkt die Antwortzeit für Endnutzer:innen in Europa und erspart Egress-Gebühren bei großen Datasets.

So testest du die Modelle in 5 MINUTEN

  1. Workers-AI-Konsole öffnen. Im Cloudflare-Dashboard unter AI → Workers AI findest du die Modell-Liste.
  2. Modell auswählen. GLM-4.7-Flash oder Qwen3-30B-A3B markieren, einen Test-Prompt mit langem Kontext einfüttern.
  3. API-Snippet kopieren. Cloudflare gibt dir direkt einen Wrangler-Code-Snippet mit dem passenden Model-Slug. Reinkopieren, lokal testen.
  4. Im AI Search verdrahten. Im AI-Search-Setup einen neuen Index erstellen, EmbeddingGemma als Embed-Modell wählen, GLM-4.7-Flash als Chat-Modell.

EXTRA-TIPP: Cost-Bench fahren

Bevor du produktiv migrierst, lohnt sich ein Mini-Benchmark. Schick die typischen 50 Anfragen einmal an deinen alten Provider und einmal an Workers AI. Vergleich Latenz, Cost-per-1k-Tokens und Qualität. Cloudflare gewinnt häufig bei Latenz und Kosten, OpenAI bei Reasoning-Aufgaben mit kurzen Prompts.

FAZIT: Edge-AI wird zum Default

Mit den neuen Modellen rückt Workers AI näher an die vollwertige RAG-Plattform. Wer in Europa hostet und Daten ungern in die USA schickt, hat damit eine ernsthafte Alternative zur OpenAI-Pipeline. Ein Wochenend-Test ist es allemal wert.

Häufige Fragen

Was ändert sich für mich als Nutzer?
Wer Cloudflare AI Search als RAG-Backend nutzt, hat ab dem 8. April vier neue Modelle ohne Extra-Vertrag verfügbar. Du musst keinen OpenAI- oder Anthropic-Key hinterlegen, kein Quoten-Setup machen – die Inferenz läuft direkt im Cloudflare-Netz. Praktisch für DSGVO-bewusste Setups, weil Daten Europa nicht verlassen müssen.
Wann ist das Feature verfügbar?
Die Modelle sind seit dem 8. April 2026 in der Workers-AI-Konsole gelistet. Voll bestelltbar sind sie für alle Nutzer mit Workers Paid Plan; Free-Plan-User sehen das Limit der Test-Tokens. Eine Wartelistenpflicht gibt es für die regulären Modelle nicht.
Was kostet es?
Workers AI rechnet pro 1.000 Neuron-Tokens ab; die genauen Stückpreise stehen im Pricing-Sheet. Im Vergleich zu OpenAI- oder Anthropic-Direkt-Aufrufen sind die Cloudflare-Tarife meist günstiger, weil keine Egress-Kosten anfallen. Für Embedding-Modelle gibt es zusätzlich eine kostenfreie Test-Quote.
Welche Konkurrenz-Produkte sind betroffen?
OpenAI-Embedding-Endpoints und Pinecone-RAG-Stacks bekommen Druck. GLM-4.7-Flash und Qwen3-30B-A3B sind günstigere Alternativen für Long-Context-Summary-Aufgaben. EmbeddingGemma-300M und Qwen3-Embedding-0.6B konkurrieren mit text-embedding-3-small von OpenAI – mit Vorteilen bei Latenz, weil sie näher am Endkunden laufen.

Quellen