Wie KI-Agenten Entscheidungen treffen: Die Agent-Loop erklärt

Die Kernschleife

Jeder KI-Agent, unabhängig von Framework oder Komplexität, läuft demselben Grundmuster. Der Agent beobachtet seine Umgebung (durch Lesen von Werkzeugergebnissen, Nutzernachrichten oder Systemzuständen), denkt über das Weitere nach (indem er diese Information durch ein Sprachmodell verarbeitet) und handelt (durch einen Werkzeugaufruf, eine Ausgabe oder eine Rückfrage). Dann kehrt er zur Beobachtung der Folgen zurück.

Diese Schleife läuft, bis der Agent sein Ziel erreicht, keinen Fortschritt mehr sieht oder menschliche Eingabe braucht. Die Eleganz des Musters liegt in seiner Allgemeinheit. Dieselbe Schleife treibt eine einfache Dateisuche und ein komplexes Recherche-Projekt an. Was zwischen einfachen und komplexen Agenten variiert, ist nicht die Schleife, sondern die Tiefe des Denkens.

Die Beobachtungsphase

In der Beobachtung sammelt der Agent Informationen. In der ersten Iteration ist die Beobachtung meist die Anfrage des Nutzers. In folgenden Iterationen umfasst sie Ergebnisse vorheriger Werkzeugaufrufe, Fehlermeldungen oder neue Informationen aus früheren Schritten.

Die Qualität der Beobachtung wirkt direkt auf die Qualität der Entscheidungen. Ein Agent, der Werkzeugergebnisse sorgfältig verarbeitet und mit vorherigem Kontext verknüpft, trifft bessere Entscheidungen als einer, der nur das jüngste Ergebnis berücksichtigt. Deshalb ist Kontext-Management so zentral. Der Agent braucht genug Kontext, um informiert zu entscheiden, ohne von Irrelevantem überflutet zu werden.

MCP-Server spielen in der Beobachtung eine zentrale Rolle. Wenn ein Agent einen Datenbank-MCP-Server für eine Abfrage oder einen Dateisystem-Server zum Code-Lesen nutzt, werden diese Werkzeugergebnisse zu seinen Beobachtungen. Je reichhaltiger und relevanter, desto besser kann der Agent über den nächsten Schritt nachdenken.

Die Denkphase

Im Denken zeigt das Sprachmodell sein Können. Aus dem aktuellen Kontext (ursprüngliche Aufgabe, alle vorherigen Beobachtungen, Anweisungen und Beschränkungen) entscheidet das Modell, was als Nächstes zu tun ist. Soll ein weiteres Werkzeug aufgerufen werden? Welches? Mit welchen Parametern? Oder ist die Aufgabe abgeschlossen?

Hier unterscheiden sich Agenten am stärksten von Chatbots. Ein Chatbot erzeugt eine Antwort und hört auf. Ein Agent erzeugt einen Plan (sei es nur der nächste Einzelschritt) und führt ihn aus. In der Denkphase findet mehrstufiges Reasoning statt, der Agent wägt Alternativen ab und entscheidet, ob er weitergehen oder umsteuern soll.

Die Reasoning-Fähigkeit des Modells ist der Engpass für Agenten-Leistung. Ein Modell, das komplexe Aufgaben verlässlich zerlegt, wahrscheinliche Folgen antizipiert und Fehler korrigieren kann, ergibt wirksame Agenten. Eines, das an Mehrdeutigkeit scheitert oder den Faden verliert, ergibt frustrierende.

Die Handlungsphase

Im Handeln interagiert der Agent mit der Welt. Er ruft ein Werkzeug über MCP oder Function Calling auf, erzeugt eine Antwort oder verlangt eine menschliche Eingabe. Jede Aktion verändert den Zustand der Umgebung, was neue Beobachtungen für die nächste Iteration erzeugt.

Aktionen können einfach (eine Datei lesen) oder komplex (ein mehrstufiger API-Workflow) sein. Der Agent muss die Implementierung der Aktion nicht kennen. Er beschreibt, was er tun will; das Werkzeug führt es aus. Diese Abstraktion macht Agenten werkzeugneutral. Dieselbe Schleife funktioniert, ob die Werkzeuge MCP-Server, REST-APIs oder lokale Funktionen sind.

Fehlerbehandlung und Wiederherstellung

Einer der wichtigsten Aspekte der Agent-Loop ist der Umgang mit Fehlern. Wenn ein Werkzeugaufruf scheitert, unerwartete Ergebnisse liefert oder in einen Timeout läuft, muss der Agent entscheiden, wie es weitergeht. Dieselbe Aktion erneut versuchen? Einen anderen Ansatz wählen? Den Nutzer um Hilfe bitten?

Die Antwort hängt vom Kontext ab. Vorübergehende Netzwerkfehler rechtfertigen einen Retry. Dauerhafte Fehler (etwa fehlende Berechtigungen) verlangen einen anderen Ansatz oder Eskalation. Verlässliche Fehlerbehandlung ist eines der unscheinbar Wichtigen, das Agenten-Verhalten in Produktion ausmacht.

Wo die Schleife an Grenzen stößt

Die Agent-Loop ist mächtig, aber nicht unbegrenzt. Sehr lange Sequenzen führen zu kumulierten Fehlern. Sehr ambivalente Ziele führen zu Endlosschleifen. Sehr breite Werkzeugmengen können das Modell überfordern. Designentscheidungen, die diese Grenzen anerkennen, ergeben verlässlichere Agenten.

Konkret: Aufgaben in überschaubare Teilziele zerlegen, klare Abbruchbedingungen definieren, Werkzeugmengen pro Phase einschränken und Mensch-im-Loop-Punkte für unsichere Stellen einbauen. Die Schleife bleibt einfach; die Disziplin im Drumherum macht den Unterschied.

Weiterführende Lektüre

Entdecken Sie KI-Agenten auf Skillful.sh.