Mozilla any-llm v1.0 — Universal Gateway für LLM-Provider

Q: Was ist any-llm?

Ein universelles Interface, mit dem du mit einem einzigen API-Call gegen Dutzende LLM-Provider sprichst. OpenAI, Anthropic, Gemini, Mistral, Groq, Cohere, lokale Modelle via llamafile oder Ollama — alle laufen über dieselbe Funktion. Die v1.0-Release liefert produktions-taugliche Stabilität, standardisierten Reasoning-Output und Auto-Detection des Providers.

Q: Wie unterscheidet sich any-llm von LiteLLM?

Beides sind Multi-Provider-Wrapper, aber any-llm ist tiefer in den Mozilla-Stack integriert (Thunderbolt, llamafile). Es legt den Fokus auf seamless switching zwischen Cloud und Local — du sollst nicht merken, ob hinten Anthropic oder Llama 3.3 antwortet. LiteLLM dagegen ist eher klassisch Routing-Layer mit Cost-Tracking. Beide lassen sich kombinieren.

Q: Was bringt mir das praktisch?

Du kannst Prompts an mehrere Modelle gleichzeitig schicken, A/B-Tests fahren, automatische Failover-Regeln definieren („wenn Anthropic 429, fallback auf Gemini“). Plus: Reasoning-Modelle wie Opus 4.7 oder GPT-5 reasoning antworten mit standardisierten Strukturen, du musst nicht für jedes Modell extra parsen.

Q: Was passiert mit dem alten any-llm-Gateway?

Mozilla.ai hat angekündigt, das mit any-llm gebündelte Gateway am 18. Mai 2026 zu entfernen. Wer es nutzt, muss zum standalone-Gateway auf github.com/mozilla-ai/gateway migrieren. Heißt: Jetzt umstellen, sonst gibt es einen unerwarteten Ausfall in einer Woche.

Hinweis: Dieser Beitrag enthält Affiliate-Links (mit * gekennzeichnet). Kaufst du über einen dieser Links, erhalte ich eine kleine Provision — für dich ändert sich der Preis nicht.

Mozilla.ai pumpt JETZT die nächste Stufe raus! Nach Llamafile und der any-llm-Beta kommt jetzt die v1.0 — production-ready, standardisierter Reasoning-Output, Auto-Provider-Detection. Wer ein eigenes KI-Tool baut, kann ab heute mit einer einzigen API gegen Dutzende LLM-Provider sprechen.

HAMMER: Eine API für ALLES

Die Idee ist simpel, der Effekt riesig: Statt für jeden Provider ein eigenes SDK zu pflegen (Anthropic Python SDK hier, OpenAI dort, eine Custom-Wrapper-Klasse für Gemini drumherum), reicht ein Aufruf gegen any-llm. Der ruft hinten den richtigen Provider auf, einheitlich. Wer einen Provider tauschen will, ändert einen Konfigurations-Wert — nicht eine halbe Codebase.

UNGLAUBLICH: Auto-Provider-Detection

any-llm 1.0 erkennt anhand des Modellnamens automatisch, welcher Provider angesprochen werden soll. Schreibst du claude-opus-4-7, geht der Call zu Anthropic. gpt-5.5-instant landet bei OpenAI. llama-3.3-70b bei deinem lokalen Server. Keine Provider-Strings mehr in Configs — die Modell-ID reicht.

SCHOCK: Alte Gateway wird am 18. Mai abgeschaltet

Achtung, Stolperstein: Das mit dem alten any-llm gebündelte Gateway wird am 18. Mai 2026 entfernt. Wer das im Produktivsystem nutzt, muss auf das standalone-Gateway umsteigen (github.com/mozilla-ai/gateway). Klingt nach Detail, schmerzt aber, wenn dein Chatbot in der nächsten Woche überraschend leise wird.

So integrierst du any-llm in 15 MINUTEN

Install: pip install any-llm (Python) oder npm install @mozilla-ai/any-llm (Node).
Provider-Keys: Anthropic, OpenAI, Gemini-Keys als Env-Variablen hinterlegen.
Erster Call: response = any_llm.complete(model="claude-opus-4-7", messages=[...]). Fertig.
Standalone-Gateway: Wenn du den Routing-Layer brauchst, das separate mozilla-ai/gateway-Repo deployen — Container-Image gibt es bereits. Für einen schmerzfreien Sandbox-Spielplatz reicht eine kleine VM bei Hetzner Cloud* ab rund 5 Euro pro Monat — Provider-Keys gegen das Gateway feuern, Antworten vergleichen, fertig.
Reasoning parsen: response.reasoning_steps ist über alle Provider gleich strukturiert — das ist neu in 1.0.

EXTRA-TIPP: Cost-Routing per Regel

Wer Geld sparen will, definiert einfache Regeln: kurze Prompts < 100 Tokens → lokales Llama 3.3; lange Prompts mit Reasoning → Opus 4.7. Das ist mit any-llm in zehn Zeilen Code abbildbar — und spart in produktiven Apps fast immer mindestens 30 Prozent Inferenz-Kosten.

FAZIT: Open-Source-Standard für LLM-APIs

any-llm 1.0 ist ein wichtiger Schritt: Mozilla.ai etabliert einen offenen Standard für LLM-Kommunikation. Vendor-Lock-In wird kostspielig, Migrationen werden günstig, A/B-Tests werden Tag-eins-Workflow. Wer einen produktiven KI-Stack baut, sollte 2026 nicht mehr SDK-pro-Provider denken — sondern Gateway-pro-Stack.

Häufige Fragen

Was ist any-llm?

Ein universelles Interface, mit dem du mit einem einzigen API-Call gegen Dutzende LLM-Provider sprichst. OpenAI, Anthropic, Gemini, Mistral, Groq, Cohere, lokale Modelle via llamafile oder Ollama — alle laufen über dieselbe Funktion. Die v1.0-Release liefert produktions-taugliche Stabilität, standardisierten Reasoning-Output und Auto-Detection des Providers.

Wie unterscheidet sich any-llm von LiteLLM?

Beides sind Multi-Provider-Wrapper, aber any-llm ist tiefer in den Mozilla-Stack integriert (Thunderbolt, llamafile). Es legt den Fokus auf seamless switching zwischen Cloud und Local — du sollst nicht merken, ob hinten Anthropic oder Llama 3.3 antwortet. LiteLLM dagegen ist eher klassisch Routing-Layer mit Cost-Tracking. Beide lassen sich kombinieren.

Was bringt mir das praktisch?

Du kannst Prompts an mehrere Modelle gleichzeitig schicken, A/B-Tests fahren, automatische Failover-Regeln definieren („wenn Anthropic 429, fallback auf Gemini“). Plus: Reasoning-Modelle wie Opus 4.7 oder GPT-5 reasoning antworten mit standardisierten Strukturen, du musst nicht für jedes Modell extra parsen.

Was passiert mit dem alten any-llm-Gateway?

Mozilla.ai hat angekündigt, das mit any-llm gebündelte Gateway am 18. Mai 2026 zu entfernen. Wer es nutzt, muss zum standalone-Gateway auf github.com/mozilla-ai/gateway migrieren. Heißt: Jetzt umstellen, sonst gibt es einen unerwarteten Ausfall in einer Woche.

ANY-LLM-HAMMER! Mozilla schiebt JETZT die Universal-API gegen Vendor-Lock-In