Vier neue Modelle, kein Extra-Key. Cloudflare hat Workers AI am 8. April erweitert. Die Modelle laufen direkt am Edge und sind ab sofort in AI Search nutzbar – ohne separaten Provider-Vertrag.
SCHOCK: Long Context als Allgemeingut
Das spannendste neue Modell ist GLM-4.7-Flash aus dem Hause Zhipu AI. Es bietet 131.072 Token Kontextfenster und ist speziell auf Long-Document-Summary und Retrieval optimiert. Wer in Workers AI bisher nur kleinere Modelle nutzen konnte, kriegt damit eine ernsthafte Alternative für Vertrags-, Code- und PDF-Analyse.
Qwen3-30B-A3B hängt nebendran als Mixture-of-Experts. Trotz 30 Milliarden Parametern aktiviert das Modell pro Forward-Pass nur 3 Milliarden – Inferenz wird billig, ohne Qualität zu kosten.
UNGLAUBLICH: Zwei Embedding-Modelle für RAG-Stacks
Wer mit RAG bastelt, ist über Qwen3-Embedding-0.6B und EmbeddingGemma-300M dankbar. Das Qwen-Modell schluckt bis zu 4.096 Tokens auf einmal – also komplette Dokumenten-Chunks – und liefert vergleichsweise dichte Vektoren. EmbeddingGemma kommt mit 768-Dimension-Output und ist auf niedrige Latenz getrimmt.
Beide Modelle laufen direkt am Cloudflare-Edge. Das senkt die Antwortzeit für Endnutzer:innen in Europa und erspart Egress-Gebühren bei großen Datasets.
So testest du die Modelle in 5 MINUTEN
- Workers-AI-Konsole öffnen. Im Cloudflare-Dashboard unter AI → Workers AI findest du die Modell-Liste.
- Modell auswählen. GLM-4.7-Flash oder Qwen3-30B-A3B markieren, einen Test-Prompt mit langem Kontext einfüttern.
- API-Snippet kopieren. Cloudflare gibt dir direkt einen Wrangler-Code-Snippet mit dem passenden Model-Slug. Reinkopieren, lokal testen.
- Im AI Search verdrahten. Im AI-Search-Setup einen neuen Index erstellen, EmbeddingGemma als Embed-Modell wählen, GLM-4.7-Flash als Chat-Modell.
EXTRA-TIPP: Cost-Bench fahren
Bevor du produktiv migrierst, lohnt sich ein Mini-Benchmark. Schick die typischen 50 Anfragen einmal an deinen alten Provider und einmal an Workers AI. Vergleich Latenz, Cost-per-1k-Tokens und Qualität. Cloudflare gewinnt häufig bei Latenz und Kosten, OpenAI bei Reasoning-Aufgaben mit kurzen Prompts.
FAZIT: Edge-AI wird zum Default
Mit den neuen Modellen rückt Workers AI näher an die vollwertige RAG-Plattform. Wer in Europa hostet und Daten ungern in die USA schickt, hat damit eine ernsthafte Alternative zur OpenAI-Pipeline. Ein Wochenend-Test ist es allemal wert.