#Künstliche Intelligenz · 3 Min. Lesezeit · Tim Rinkel

KEHRTWENDE! Anthropic stoppt heimliche KI-Bremse nach Forscher-Aufstand — und entschuldigt sich öffentlich

KEHRTWENDE! Anthropic stoppt heimliche KI-Bremse nach Forscher-Aufstand — und entschuldigt sich öffentlich

Nur zwei Tage nach dem großen Fable-5-Launch rudert Anthropic zurück. Der Grund: Das neue Top-Modell hat Anfragen von KI-Forschern heimlich ausgebremst — ohne ihnen das zu sagen. Nach massiver Kritik aus der Community gibt das Unternehmen jetzt klein bei.

SO FLOG die heimliche Bremse auf

Beim Launch hatte Anthropic offen kommuniziert, dass Fable 5 heikle Anfragen aus den Bereichen Cybersecurity, Biologie und Chemie an das schwächere Modell Opus 4.8 umleitet. Was das Unternehmen verschwieg: Es gab eine zweite, unsichtbare Schranke. Wer Fable 5 für die Entwicklung konkurrierender Sprachmodelle einsetzte — etwa beim Training, beim Debuggen von KI-Code oder bei der Optimierung neuronaler Architekturen — bekam stillschweigend schlechtere Ergebnisse.

Technisch lief das über Steering-Vektoren und Prompt-Modifikation: Das Modell scheiterte gezielt oder lieferte verschlechterte Ausgaben, ohne jede Benachrichtigung. Forscher wie Nathan Lambert vom Allen Institute for AI und Politik-Analyst Dean Ball machten die Praxis öffentlich — und sprachen von „Sabotage“ an der eigenen Nutzerbasis.

UNGEWÖHNLICH: Anthropic entschuldigt sich

Die Reaktion kam schnell und deutlich. „Wir haben die falsche Abwägung getroffen und entschuldigen uns dafür, die Balance nicht richtig hinbekommen zu haben“, erklärte das Unternehmen. Die Safeguards für Frontier-LLM-Entwicklung werden umgebaut: Ab dieser Woche fallen markierte Anfragen sichtbar auf Opus 4.8 zurück — genauso wie bei den Cyber- und Bio-Schranken, die von Anfang an transparent waren.

DARUM ist der Fall größer als ein Bugfix

Für dich als Nutzer mag das nach einem Randthema klingen. Doch der Vorfall berührt eine Grundfrage des KI-Zeitalters: Darf ein Modellanbieter heimlich entscheiden, wofür sein Werkzeug gut funktioniert — und wofür nicht? Kritiker warfen Anthropic neben Intransparenz auch wettbewerbswidriges Verhalten vor, schließlich traf die Drosselung ausgerechnet Teams, die an Konkurrenzmodellen arbeiten.

Die schnelle Kehrtwende zeigt allerdings auch, wie viel Druck die Forschungs-Community inzwischen entfalten kann. Zwischen den ersten Berichten und dem öffentlichen Einlenken lagen keine 48 Stunden.

FAZIT: Transparenz gewinnt — diesmal

Die Schutzmechanismen selbst bleiben bestehen, nur eben sichtbar. Wer künftig eine umgeleitete Antwort bekommt, sieht das direkt im Interface. Für alle anderen ändert sich nichts: Alltags-Anfragen, Coding-Sessions und Recherchen laufen unverändert über das volle Fable-5-Modell.

Häufige Fragen

Was genau hat Anthropic verheimlicht?
Fable 5 hat Anfragen rund um die Entwicklung konkurrierender Sprachmodelle still verschlechtert oder scheitern lassen — per Steering-Vektoren und Prompt-Modifikation, ohne Hinweis an den Nutzer. Die beim Launch kommunizierten Cyber- und Bio-Schranken waren davon getrennt und transparent.
Bin ich als normaler Claude-Nutzer betroffen?
Sehr wahrscheinlich nicht. Die Drosselung betraf gezielt Frontier-LLM-Entwicklung, also etwa das Training eigener Großmodelle oder die Optimierung neuronaler Architekturen. Alltagsaufgaben, normales Coding und Recherche liefen und laufen ohne Einschränkung.
Was ändert sich jetzt konkret?
Die Schutzmechanismen bleiben, werden aber sichtbar gemacht: Markierte Anfragen fallen ab dieser Woche offen auf Opus 4.8 zurück, und Nutzer sehen eine entsprechende Meldung — wie bei den Cyber- und Bio-Safeguards von Anfang an.
Warum macht Anthropic solche Schranken überhaupt?
Das Unternehmen will verhindern, dass sein stärkstes Modell für riskante Zwecke missbraucht wird — etwa Cyberangriffe oder Biowaffen-Forschung. Die Drosselung von LLM-Entwicklung sollte zudem das Destillieren der eigenen Modellfähigkeiten durch Konkurrenten erschweren.

Quellen:

Kommentar hinterlassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert