Wie Sie KI-Skills und Prompts wirksam testen

Warum klassisches Testen zu kurz greift

Klassisches Software-Testen baut auf deterministischem Verhalten. Bei Eingabe X soll die Funktion stets Ausgabe Y liefern. Sonst schlägt der Test fehl. KI-Skills arbeiten nicht so. Bei gleicher Eingabe kann ein Skill leicht abweichende Ausgaben liefern. Beide können gleich gut sein, oder eine besser auf eine Weise, die sich automatisch schwer messen lässt.

Diese Nichtdeterminiertheit bedeutet, dass exakter Ausgabeabgleich (der Standard im Software-Test) für KI-Skill-Tests zu starr ist. Sie brauchen Ansätze, die Qualität bewerten statt exakte Übereinstimmung.

Referenzbasierte Bewertung

Ein praktischer Ansatz ist, Referenzausgaben für eine Menge von Testeingaben zu erstellen. Diese Referenzen zeigen, wie eine gute Ausgabe aussieht. Beim Test vergleichen Sie die tatsächliche Skill-Ausgabe mit der Referenz über Ähnlichkeitsmetriken, Strukturvergleich oder menschliches Urteil.

Die Referenz muss kein perfekter Treffer sein. Stattdessen definieren Sie Kriterien: Enthält die Ausgabe dieselben Schlüsselfakten? Ist sie ähnlich strukturiert? Adressiert sie dieselben Aspekte der Eingabe? Ein Skill, dessen Ausgabe 90 Prozent der Kriterien erfüllt, leistet gute Arbeit, auch wenn der genaue Wortlaut von der Referenz abweicht.

Gute Referenzen anzulegen kostet anfangs Aufwand, doch die Investition zahlt sich rasch aus. Liegen Referenzen für 20 bis 30 Testeingaben vor, können Sie jede Prompt-Änderung beurteilen, indem Sie die Test-Suite laufen lassen und mit Referenzen vergleichen. Aus Prompt-Optimierung wird Messung statt Raten.

Kriterienbasierte Bewertung

Bei Skills, deren Referenzausgaben schwer zu definieren sind (kreatives Schreiben, offene Recherche, komplexe Analyse), funktioniert kriterienbasierte Bewertung besser. Statt mit einer Referenz zu vergleichen, definieren Sie Qualitätskriterien und bewerten jede Ausgabe daran.

Kriterien können sein: faktische Genauigkeit, Vollständigkeit, Format-Treue, angemessener Ton und Umsetzbarkeit. Jedes Kriterium kann unabhängig bewertet werden (Skala 1-5, bestanden/nicht bestanden oder Note) und die Werte zu einer Gesamtbeurteilung zusammengeführt werden.

Kriterienbasierte Bewertung lässt sich teilweise mit einem zweiten KI-Modell als Schiedsrichter automatisieren. Das beurteilende Modell erhält die ursprüngliche Eingabe, die Skill-Ausgabe und die Kriterien und liefert Werte. Das ist nicht so verlässlich wie menschliche Bewertung, skaliert aber deutlich besser und liefert konsistente, wenn auch unvollkommene Beurteilungen.

Regressionstests

Wenn Sie einen Skill ändern, wollen Sie wissen, ob die Änderung verbessert, gehalten oder verschlechtert hat. Regressionstests führen den Skill (alte und neue Version) gegen dieselben Testeingaben aus und vergleichen die Ergebnisse.

Ein einfacher Regressionstest prüft, ob die neue Version Ausgaben liefert, die mindestens so gut sind wie die der alten Version, über alle Testeingaben hinweg. Ein anspruchsvollerer Test misst spezifische Metriken (durchschnittlicher Qualitätswert, Fehlerrate, Token-Verbrauch) und vergleicht sie zwischen Versionen.

Die wichtigsten Regressionstests sind solche, die bekannte Fehlbilder abdecken. Wenn die alte Version mit einem bestimmten Eingabetyp Mühe hatte, gehört dieser Eingabetyp in die Test-Suite. So stellen Sie sicher, dass Verbesserungen in einem Bereich nicht zu Verschlechterungen in einem anderen führen.

Randfälle entdecken

KI-Skills begegnen einer breiteren Eingabevielfalt als die meisten Software-Funktionen. Nutzer formulieren Anfragen unerwartet, geben mehrdeutige Eingaben oder verlangen Dinge, für die der Skill nicht gedacht war. Diese Randfälle vor den Nutzern zu finden, erhöht die Robustheit.

Techniken zur Randfall-Entdeckung sind: adversarielles Testen (gezielter Versuch, den Skill zu verwirren), Grenzwerttest (mit minimalen oder maximalen Eingaben) und kulturübergreifender Test (Eingaben in anderen Sprachen, mit anderen Konventionen oder aus anderen Domänen). Jede Technik bringt Fehlbilder zutage, die normales Testen übersehen würde.

Fortlaufende Bewertung

KI-Skills arbeiten in einer sich verändernden Umgebung. Modell-Updates verändern Verhalten. Werkzeugfähigkeiten entwickeln sich. Nutzererwartungen verschieben sich. Regelmäßige Neubewertung gegen die Test-Suite fängt Verschlechterungen ab, bevor Nutzer sie bemerken.

Manche Teams lassen ihre Skill-Test-Suiten wöchentlich oder nach jedem Modell-Update laufen. Andere beobachten produktive Skill-Ausgaben und markieren Fälle, in denen die Qualität unter eine Schwelle fällt. Der richtige Ansatz hängt davon ab, wie kritisch der Skill ist und wie häufig sich seine Umgebung verändert.

Weiterführende Lektüre

Entdecken Sie KI-Skills auf Skillful.sh.