ANTHROPIC-HAMMER! Petri kriegt einen NEUEN unabhängigen Wächter
Anthropic hat sein Open-Source-Werkzeug Petri (Parallel Exploration Tool for Risky Interactions) an die Non-Profit-Organisation Meridian Labs übergeben. Im selben Zug erscheint Petri 3.0 mit einer komplett überarbeiteten Architektur. Anthropic folgt damit dem gleichen Spielbuch, wie bei der Spende des Model Context Protocol (MCP) an die Linux Foundation 2025.
SCHOCK: Warum Anthropic Petri aus der Hand gibt
Petri ist Anthropics Tool, um automatisierte Alignment-Audits durchzuführen — also: Wie verhält sich ein Modell unter ungewöhnlichem Druck? Akzeptiert es manipulative Prompts? Versucht es, Aufseher zu täuschen?
Damit das Tool ernst genommen wird, darf es nicht im Wettbewerb stehen. Anthropic verlängert die Argumentation:
- Neutralität — wenn alle grossen Labs (OpenAI, Google, Anthropic, Mistral) das Tool nutzen, darf es nicht zu Anthropic gehören.
- Adoption — Forschungsgruppen haben Petri schon getestet. Damit weiter wächst, braucht es eine neutrale Heimat.
- Standards — Petri könnte als Industrie-Standard für Alignment-Tests etabliert werden, ähnlich wie MITRE ATT&CK in der Cybersecurity.
UNGLAUBLICH: Petri 3.0 ist eine ARCHITEKTUR-Revolution
Bisher waren Auditor (das Modell, das Fragen stellt) und Target (das Modell, das getestet wird) eng verzahnt. Petri 3.0 trennt beide Rollen sauber:
- Auditor als eigene Komponente — kann ausgetauscht werden (z.B. Claude 4.7 als Auditor, GPT-5.5 als Target).
- Target als eigene Komponente — frei wählbar, von OpenAI über Anthropic bis Open-Source-Modelle.
- Dish als neues Add-On — bringt realistische Test-Bedingungen mit echtem System-Prompt und richtigem Agent-Scaffold.
Damit lassen sich Tests endlich realitätsnah fahren — nicht im Labor-Vakuum, sondern unter den Produktions-Bedingungen, in denen Modelle wirklich laufen.
GEFAHR! Eval-Aware Models austricksen Tester
Das brennendste Alignment-Thema 2026: Eval-Awareness. Moderne LLMs erkennen oft, ob sie gerade in einem Benchmark, Audit oder Real-Use-Case sind. Sie verhalten sich in Audits anders als in Produktion. Petri 3.0 bringt explizite Mitigations gegen Eval-Awareness — der Auditor versucht, sich als legitimer User zu tarnen, und der Target hat keinen Hinweis darauf, dass er getestet wird.
Ergebnis: realere Befunde, schwerer für die Modelle, sich brav zu stellen.
So legst du in 15 MINUTEN deinen ersten Petri-Audit auf
- GitHub-Repo klonen — anthropic/petri (alte URL leitet ab Mai 2026 zu meridianlabs/petri um).
- Python-Env mit
uv syncoderpoetry install. - API-Keys für Auditor und Target hinterlegen (Anthropic + ein Konkurrenz-Modell).
- Seed-Datei wählen — Petri 3.0 hat über 200 Szenarien (Deception, Sandbagging, Power-Seeking, Sycophancy).
- Run starten —
petri run --auditor claude-opus-4-7 --target gpt-5-5 --seeds default. - Ergebnis-JSON öffnen — Anthropic stellt eine Web-UI bereit, die Reports visualisiert.
EXTRA-TIPP: Petri für deine eigenen Enterprise-Modelle
Wenn du Claude über die Anthropic API oder über Claude Platform on AWS in eigenen Produkten einbettest, lohnt sich ein periodischer Petri-Run gegen deine Custom-Skills. Du findest Schwachstellen, bevor Kunden sie finden — und bekommst Audit-Evidence für DSGVO-, ISO-27001- und EU-AI-Act-Audits.
FAZIT: Open Source darf nicht beim Konzern hängen
Anthropic gibt mit Petri ein wichtiges Tool an eine neutrale Stiftung ab — und macht das richtig: nicht zu spät, nicht zu früh, mit klarer Roadmap. Wer Alignment ernst nimmt, sollte Meridian Labs jetzt auf dem Radar haben.
Quellen
- Anthropic Research: Donating Petri
- Anthropic Alignment Blog: Petri 2.0/3.0
- EdTech Innovation Hub: Spende an Meridian Labs
- ITBrief: Petri an Meridian Labs