Speicher-Systeme für KI-Agenten: Kurz- versus Langzeit-Ansätze

Warum Speicher zählt

Ein Agent ohne Speicher ist auf Aufgaben einer einzelnen Sitzung beschränkt. Er kann ein Thema recherchieren, einen Bericht schreiben oder Code debuggen, aber nur innerhalb einer Konversation. Sobald die Sitzung endet, ist alles Gelernte verloren. Die nächste Sitzung beginnt bei null.

Für viele Anwendungsfälle ist das in Ordnung. Die meisten Entwicklungsaufgaben, Recherche-Anfragen und Datenanalysen sind in sich geschlossen. Manche Anwendungsfälle verlangen aber Kontinuität: Systeme über die Zeit beobachten, auf vorheriger Recherche aufbauen, Projektfortschritt verfolgen oder Kontext laufender Konversationen wahren.

Kurzzeitspeicher: Das Kontextfenster

Die einfachste Form von Agenten-Speicher ist das Kontextfenster des Sprachmodells selbst. Während der Agent eine Aufgabe bearbeitet, sammelt sich der Konversationsverlauf an. Frühere Beobachtungen, Werkzeugergebnisse und Reasoning-Schritte bleiben im Kontext und prägen künftige Entscheidungen.

Das funktioniert gut bei Aufgaben, die ins Kontextfenster passen (das bei modernen Modellen über 100.000 Tokens umfassen kann). Der Agent erinnert sich perfekt an alles in der aktuellen Sitzung. Er kann auf frühere Befunde verweisen, vorherige Fehler korrigieren und auf Zwischenergebnissen aufbauen.

Die Grenze ist, dass Kontextfenster endlich und teuer sind. Wächst die Konversation, kostet jeder neue Schritt mehr, weil das Modell den gesamten Vorlauf verarbeiten muss. Bei langlaufenden Aufgaben wird Kontext-Management nötig: frühere Schritte zusammenfassen, irrelevante Details abwerfen und die Konversation auf das Wesentliche verdichten.

Arbeitsspeicher: Strukturierter Zustand

Manche Agenten-Frameworks implementieren Arbeitsspeicher als strukturierten Datenspeicher, den der Agent während einer Aufgabe pflegt. Statt sich allein auf den Konversationsverlauf zu stützen, verfolgt der Agent Variablen, Zwischenergebnisse und Aufgabenzustand explizit in einem Format, das effizienter ist als reiner Konversationstext.

Arbeitsspeicher kann enthalten: eine Liste bereits geprüfter Dateien, eine Zusammenfassung bisheriger Befunde, eine Warteschlange offener Teilaufgaben oder eine Menge geprüfter Hypothesen. Dieser strukturierte Ansatz senkt die Token-Kosten der Kontextpflege und macht den Agentenzustand für Entwickler und Nutzer transparenter.

Die Kehrseite ist zusätzliche Komplexität. Der Agent muss wissen, wann und wie er den Arbeitsspeicher aktualisiert, was eine weitere Fehlerquelle einführt. Versäumt der Agent, einen wichtigen Befund festzuhalten, oder aktualisiert er den Zustand falsch, beruhen folgende Entscheidungen auf unvollständigen oder falschen Informationen.

Langzeitspeicher: Persistente Ablage

Langzeitspeicher erlauben Agenten, Informationen über Sitzungen hinweg zu behalten. Was der Agent heute lernt, kann er nächste Woche abrufen. Das ermöglicht persönliche Assistenten, die Vorlieben merken, Recherche-Agenten, die auf früheren Untersuchungen aufbauen, und Beobachtungs-Agenten, die Veränderungen über die Zeit verfolgen.

Übliche Ansätze für Langzeitspeicher sind Vektor-Datenbanken (sie speichern Informationen als Embeddings und holen sie über semantische Ähnlichkeit), Key-Value-Speicher (Fakten als strukturierte Daten) und Dokumentenspeicher (Konversations-Zusammenfassungen oder Wissensbasen).

Vektor-Datenbanken sind besonders beliebt, weil sie natürlichsprachliche Abfragen über die abgelegten Informationen erlauben. Der Agent kann fragen: Was habe ich über die Preise des Wettbewerbers gelernt? und passende Erinnerungen abrufen, ohne genau wissen zu müssen, wie die Information gespeichert wurde. Das passt gut zur Verarbeitungsweise von Sprachmodellen.

Die Abrufherausforderung

Erinnerungen zu speichern ist der einfache Teil. Die richtigen Erinnerungen zur richtigen Zeit abzurufen ist schwer. Ein Agent mit tausenden gespeicherten Erinnerungen muss erkennen, welche für die aktuelle Aufgabe relevant sind, ohne alle in den Kontext zu laden (was teuer und potenziell verwirrend wäre).

Retrieval-Augmented Generation (RAG) löst das, indem sowohl die Anfrage als auch die gespeicherten Erinnerungen in einem Vektorraum eingebettet und die semantisch ähnlichsten Erinnerungen abgerufen werden. Das funktioniert gut für Faktenabruf, kann aber bei zeitlichem Kontext (eine Erinnerung von letzter Woche überschreibt eine von letztem Monat) und relationalem Kontext (verbundene, semantisch unterschiedliche Erinnerungen) ins Stocken geraten.

Praktische Empfehlungen

Beginnen Sie für die meisten Agenten-Anwendungen mit dem einfachsten Ansatz, der funktioniert. Das Kontextfenster reicht oft für Einzelsitzungs-Aufgaben. Ergänzen Sie Arbeitsspeicher, wenn der Kontext zu groß wird oder wenn der Agent strukturierten Zustand verfolgen muss. Ergänzen Sie Langzeitspeicher nur, wenn Kontinuität über Sitzungen hinweg eine echte Anforderung ist.

Jede Speicher-Schicht bringt Komplexität, Kosten und potenzielle Fehlerquellen. Ein Agent, der ein anspruchsvolles Speicher-System schlecht handhabt, schneidet schlechter ab als einer, der sich auf das einfache Kontextfenster verlässt und dieses gut nutzt. Stimmen Sie die Speicher-Architektur auf den tatsächlichen Bedarf Ihres Anwendungsfalls ab.

Weiterführende Lektüre

Entdecken Sie KI-Agenten auf Skillful.sh. Durchsuchen Sie über 137.000 KI-Werkzeuge.