#Hosting · 4 Min. Lesezeit · Tim Rinkel

CLOUDFLARE-HAMMER! Agenten kriegen JETZT ein Gedächtnis — so vergisst dein Bot NIE wieder den Kontext!

CLOUDFLARE-HAMMER! Agenten kriegen JETZT ein Gedächtnis — so vergisst dein Bot NIE wieder den Kontext!

Wer KI-Agenten baut, kennt den Schmerz: nach drei Sessions vergisst der Bot, was er gestern gemacht hat. Cloudflare hat genau dafür einen neuen Baustein vorgestellt — Agent Memory. Angekündigt zum Abschluss der Cloudflare Agents Week am 17. April 2026, in der Private Beta. Stand 7. Mai läuft die Warteliste, und Cloudflare nutzt den Service intern bereits.

SO funktioniert das neue Gedächtnis

Agent Memory extrahiert aus jeder Konversation strukturierte Memos — keine ganzen Transkripte, sondern verdichtete Aussagen wie „User bevorzugt Python”, „Kunde hat letzte Woche Hetzner-Server gemietet”. Bei der nächsten Anfrage zieht Memory diese Memos über fünf parallele Retrieval-Kanäle raus und kombiniert sie mit Reciprocal Rank Fusion. Heisst: nicht ein Algorithmus entscheidet, sondern fünf — und der Konsens gewinnt.

UNGLAUBLICH: Schluss mit Context-Rot

Der grosse Vorteil ist messbar: Wer alles ins Context-Window kippt, verliert Output-Qualität. Das Phänomen heisst „Context-Rot” und ist eines der härtesten Probleme im LLM-Alltag. Memory umgeht es, indem es nur die relevanten Memos zur aktuellen Frage einspielt. Studien — auch von Anthropic und OpenAI — zeigen, dass selektives Recall ab etwa 32k Token-Geschichte deutlich besser performt als blosses Anhängen.

HAMMER-Use-Cases

  • Customer-Success-Bot: erinnert sich nach Wochen an Vertragsdetails, Lieblings-Stack, offene Tickets.
  • Code-Agenten: behalten Architektur-Entscheidungen über Sessions, müssen nicht jedes Mal das Repo neu „lesen”.
  • Forschungs-Assistenten: sammeln Erkenntnisse über Tage, ohne dass der Mensch sie manuell pflegen muss.
  • Team-Bots: Shared Memory Profiles erlauben mehreren Agenten, das gleiche Wissen zu teilen.

SO meldest du dich für die Beta an

  • Schritt 1: Cloudflare-Dashboard → Agents Week → Agent Memory → Waitlist.
  • Schritt 2: Workspace beschreiben — Use-Case, erwartete Memo-Anzahl, Datenschutz-Modell. Ja, Cloudflare guckt sich das an.
  • Schritt 3: Sobald frei: Memory-Profile via Wrangler-CLI anlegen, Workers-Binding einrichten, los.
  • Schritt 4: Memos taggen — Cloudflare empfiehlt, jeden Memo mit User-ID, Topic und TTL zu versehen.

EXTRA-TIPP: Kombi mit Artifacts

Wenn du am Vortag Cloudflare Artifacts aufgesetzt hast (siehe gestrigen Post), kombinier die beiden: Artifacts hält die Files einer Session, Memory hält die Memos. Damit hast du eine vollständige Persistenz-Schicht im Edge — keine externe Datenbank, kein S3-Bucket, kein eigener Vector-Store. Sub-30ms Recall, weltweit.

SCHOCK-Detail: Cloudflare frisst sich in den OpenAI-Stack

Was Cloudflare hier baut, ist ein leiser Aufbruch: bisher mussten Agent-Builder Memory bei Pinecone, Weaviate oder mit eigenem Vector-Store lösen — und die Daten lagen meistens bei AWS. Cloudflare macht aus dem Edge ein End-to-End-Agent-Setup: Compute (Workers), Storage (Artifacts), Memory (Agent Memory), Orchestration (Project Think). Wer hier alles aus einer Hand bekommt, wechselt seltener.

FAZIT: Wartelisten-Eintrag JETZT

Selbst wenn du gerade keinen Multi-Session-Bot baust — der Slot in der Beta ist begrenzt, und Memory wird zum Standard-Baustein. Eintragen, in der Zwischenzeit eine kleine Test-Session vorbereiten (Use-Case, Memo-Schema, Privacy-Plan), und sobald die Mail kommt, sofort produktiv testen. Wer ein Coding-Agenten-Setup laufen hat, sollte Memory unbedingt mit Artifacts kombinieren.

Häufige Fragen

Was ist Agent Memory genau?
Ein Managed-Service, der aus Agent-Konversationen strukturierte Erinnerungen extrahiert und sie auf Abruf bereitstellt — fünf Retrieval-Kanäle parallel, sortiert über Reciprocal Rank Fusion. Also nicht alles ins Context-Window stopfen, sondern bei Bedarf das Relevante rausziehen.
Was ist Context-Rot, das Cloudflare bekämpft?
Wenn du immer mehr Vergangenheit ins LLM-Context-Window schiebst, wird der Output schlechter — der Bot verliert sich in irrelevantem Detail. Memory umgeht das, indem es nur die Memos zur aktuellen Frage einsammelt. Das ist messbar besser für lange Kundenbeziehungen oder Multi-Session-Tasks.
Wie skaliert das?
Memory läuft auf Cloudflares Durable Objects, also derselben Skalierungs-Schicht wie Workers und Artifacts. Shared Memory Profiles erlauben mehreren Agenten, dieselben Erinnerungen zu nutzen — etwa für ein Team von Verkaufsbots, die alle die Kunden-Historie teilen.
Was kostet das?
Aktuell läuft die Private Beta. Cloudflare hat noch keine Preise genannt, aber das Pattern bei Workers-Diensten ist klar: kostenlose Tier mit Limits, danach pro Memory-Operation. Wartelisten-Eintrag dauert ein paar Tage.

Quellen

Kommentar hinterlassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert