Cloudflare AI Platform: Multimodal & BYO-Model live

TL;DR

Cloudflare verheiratet JETZT Workers AI mit Image-, Video- und Speech-Modellen von Alibaba, Bytedance, Recraft, Runway, Vidu und mehr.
Bring-Your-Own-Model: Eigene fine-getunte Modelle ziehst du bald direkt in Workers AI rein — Edge-Inferenz auf deinem Custom-Weight.
Browser Run quickAction() direkt aus Worker callbar — kein API-Token, kein externer HTTP-Roundtrip.
Veröffentlicht am 28. Mai 2026 — Edge-Inferenz für Agenten wird damit Standard-Werkzeug.

Cloudflare hat am 28. Mai 2026 die Karten neu gemischt. Workers AI wird vom LLM-Gateway zum vollwertigen Multimodal-Inferenz-Layer — und das ohne, dass du Anbieter wechseln musst.

Was ist neu?

Drei dicke Brocken: Erstens, Multimodal-Erweiterung. AI Gateway zieht Modelle von Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway und Vidu unter eine API.

Zweitens, Bring-Your-Own-Model. Wer ein eigenes fine-getuntes Modell hat, soll es bald direkt in Workers AI hochladen und am Edge inferieren können. Kein eigener Inferenz-Cluster mehr, kein Cold-Start-Problem.

Drittens, Browser Run als Worker-Binding. Mit quickAction() rufst du Browser-Automatisierung direkt aus dem Worker auf — ohne API-Token, ohne externen HTTP-Call.

Warum ist das wichtig?

Wer Agenten baut, kämpft heute mit drei Problemen: 1. Modell-Vielfalt (LLM, Vision, Speech, Video — alle bei anderen Anbietern). 2. Latenz (jeder API-Call kostet 100+ ms). 3. Tool-Use (Browser-Steuerung, File-Handling, alles eigene Integrationen).

Die neue AI Platform löst alle drei: Eine API, Edge-Latenz, native Worker-Bindings für Browser Run, R2, D1, Vectorize und Queues.

So testest du es JETZT

Im Cloudflare-Dashboard unter Workers AI sind die neuen Anbieter bereits aufgeführt. Beispiel-Worker für ein Multimodal-Setup: Audio rein, Whisper transkribiert, Bytedance Seedream malt ein Bild aus dem Text. Drei Zeilen Worker-Code, Edge-Latenz inklusive.

Was kostet das?

Cloudflare bleibt seiner Preisphilosophie treu: Pay-per-Token oder Pay-per-Inferenz, Free-Tier für die ersten 10.000 Calls pro Tag. Browser Run wird bei normaler Nutzung inklusive, ab bestimmten Volumina kostet es extra.

Häufige Fragen

Welche Modelle sind ab sofort verfügbar?

Aktuell mit Roadmap-Status: OpenAI Whisper-Large-v3, Bytedance Seedream-4, Recraft V3, Runway Gen-3, Vidu 2, Alibaba Qwen-VL, Google PaliGemma. Die Liste wächst über die nächsten Wochen.

Funktioniert das auch in der EU?

Ja, AI Gateway läuft auf allen Cloudflare-PoPs, also auch in Frankfurt, Amsterdam, Madrid. Data-Residency-Garantien für regulierte Branchen sind separat zu prüfen.

Wann kommt Bring-Your-Own-Model?

Cloudflare hat Q3 2026 für Beta angekündigt. Aktuell läuft die private Closed-Beta mit ausgewählten Enterprise-Kunden.

Kann ich Browser Run auch ohne Worker nutzen?

Ja, Browser Run hat eine eigene HTTP-API. Die neue Binding-Variante ist nur eine bequemere Methode für Workers-User.

CLOUDFLARE-HAMMER! Workers AI öffnet JETZT für VIDEO und SPEECH — und DEIN Modell darf endlich mit!