TL;DR — die Zahlen
- +600 Prozent AI-Traffic auf Cloudflare in den letzten drei Monaten.
- Treiber: Workers AI, Vectorize, AI Gateway, Inferenz-Endpunkte für Drittmodelle.
- Cloudflare hat parallel 1.100 Stellen gestrichen — AI ersetzt Routine-Arbeit, Edge wird KI-Backbone.
- Für Self-Hoster heißt das: Latenz für Edge-AI sinkt, mehr Modelle laufen nah am User.
Du fragst dich, warum dein Web-Hoster gerade nicht mehr von Datacenter, sondern nur noch von „AI-First“ spricht? Diese Zahl erklärt’s: Cloudflare meldet, dass der KI-Traffic durch sein Netzwerk in den letzten drei Monaten um 600 Prozent gewachsen ist.
Was Cloudflare GENAU misst
„AI-Traffic“ bei Cloudflare umfasst:
- Workers AI-Aufrufe — Cloudflares eigene Inference-Plattform.
- AI Gateway-Proxies — vor OpenAI, Anthropic, Mistral, Gemini.
- Vectorize-Queries — die hauseigene Vektor-Datenbank.
- Crawler-Traffic von KI-Trainings-Bots (mit AI-Bot-Blocking auf der Gegenseite).
Der Großteil des Wachstums kommt aus dem ersten und zweiten Bereich: Self-hosted und proxied Inference.
Warum das für dich relevant ist
Wenn du eine Web-App baust, die Modell-Calls macht, sitzt du bisher meistens an einem zentralen Endpoint (OpenAI in US-East, Anthropic in US-West). Latenz: 200-400 ms zwischen User in Europa und Modell in den USA. Mit Edge-Inference auf Cloudflare schrumpft das auf 20-50 ms — der User bekommt eine sub-sekundliche Reaktion.
Genau diesen Use Case hat Cloudflare in Q1 2026 stark ausgebaut: Mehr Modelle auf mehr Edge-Standorten. Heißt: Workers AI deckt heute Gemma 4, IBM Granite, Deepgram Aura 2, Llama 4 Scout und weitere ab — ohne dass du eine eigene GPU-Box brauchst.
Wo die Wachstumsschmerzen sitzen
Die 600-Prozent-Zahl bedeutet auch: Cloudflare baut Compute-Kapazität auf, schneller als Personal aufgestockt wird. CEO Matthew Prince hat im Mai entschieden, 1.100 Stellen zu streichen — Begründung: Bestimmte Job-Kategorien (Monitoring, Reporting, Routine-Support) erledigt heute der AI-Agent selbst. Die freiwerdende Investment-Quote fließt in mehr GPUs an mehr Edge-Standorten.
Was Hoster-Konkurrenz draus macht
Bei Hetzner steigen gerade die Preise, weil RAM und Flash teurer werden. Bei Cloudflare wachsen die AI-Gebühren — aber Edge-Standort und Latenz sind das Verkaufsargument. Beide haben recht: Klassische VPS-Workloads bleiben bei Hetzner günstiger, AI-Workloads gehen schneller über Cloudflare.
So baust DU Edge-AI in dein Projekt
# Workers AI Beispiel (TypeScript)
export default {
async fetch(request: Request, env: any) {
const response = await env.AI.run(
'@cf/meta/llama-4-scout',
{ prompt: 'Erkläre Edge-Inference in einem Satz.' }
);
return new Response(JSON.stringify(response));
}
};
Kostet etwa 0,01 Dollar pro 1.000 Tokens, abhängig vom Modell. Latenz vom Wiener Edge-Knoten: ~25 ms.
Häufige Fragen
Sind 600 Prozent in 3 Monaten ein einmaliger Sprung?
Vermutlich nein. Der Trend folgt der Verbreitung von AI-Coding-Assistants, RAG-Apps und Inference-as-a-Service. Cloudflare rechnet mit anhaltend hohem Wachstum.
Macht das Cloudflare zur Bedrohung für AWS Bedrock und Azure?
Im Edge-Segment ja, im Enterprise-Compliance-Segment nicht. AWS und Azure haben SLAs und Datacenter-Zertifikate, die Cloudflare-Edge so nicht bietet.
Was kostet Workers AI im Vergleich zu OpenAI?
Kommt aufs Modell an. Kleine Modelle (Llama 4 Scout, Gemma 4) sind günstiger pro Token. Frontier-Modelle laufen weiterhin günstiger bei den Original-Providern direkt.
Bin ich Cloudflare-Vendor-Lock-in ausgesetzt?
Nicht, wenn du AI Gateway als Proxy nutzt und das eigentliche Modell extern hostest. Bei Workers AI bist du an Cloudflares Modell-Katalog gebunden.
Können kleine Self-Hoster mithalten?
Für Hobby-Workloads: ja, ein Ollama auf der Heim-GPU schlägt jede Cloud bei Privatsphäre. Für Public-User-Apps: Cloudflare-Edge ist latenzseitig unerreichbar.
Quellen
- blog.cloudflare.com/
- fortune.com/2026/05/21/cloudflare-ceo-matthew-prince-layoffs-ai-automation-measurers/
- techcrunch.com/2026/05/08/cloudflare-says-ai-made-1100-jobs-obsolete/