Wie Skillful.sh Daten aus über 50 Verzeichnissen für KI-Werkzeuge aggregiert

Die Quellenlandschaft

Das Ökosystem der KI-Werkzeuge verteilt sich auf Dutzende von Verzeichnissen, Registries und Listing-Diensten. npm enthält tausende MCP-bezogener Pakete. GitHub beheimatet zehntausende Repositories. Spezialisierte Registries wie Smithery, Glama und mcp.so pflegen jeweils eigene kuratierte Sammlungen. Community-gepflegte Awesome-Listen auf GitHub bilden eine weitere Quelle. Und neue Verzeichnisse entstehen weiterhin, während das Ökosystem wächst.

Jede Quelle hat eigene Stärken. npm liefert Download-Statistiken und Versionshistorie. GitHub liefert Code-Metriken, Issue-Aktivität und Mitwirkenden-Daten. Kuratierte Registries liefern redaktionelle Einschätzung und Kompatibilitätsangaben. Awesome-Listen spiegeln Community-Vorlieben wider. Keine einzelne Quelle gibt Ihnen das vollständige Bild eines Werkzeugs.

Der Crawling-Prozess

Aggregation aus 50+ Quellen verlangt systematische Datensammlung. Jede Quelle hat ihre eigene API (oder eben keine), ihr eigenes Datenformat und ihre eigenen Rate Limits. Manche Quellen bieten saubere APIs mit strukturierten Daten. Andere erfordern Web-Scraping. Einige liefern Daten-Dumps. Die Sammelinfrastruktur muss all diese Zugriffsmuster zuverlässig handhaben.

Die Crawling-Frequenz variiert je nach Quelle. Paket-Registries, die sich häufig aktualisieren, werden öfter abgefragt als Community-Listen, die sich langsam ändern. Ziel ist Aktualität, ohne die Quell-Server zu überlasten oder übermäßig Ressourcen zu verbrauchen.

Normalisierung

Sobald Daten aus mehreren Quellen vorliegen, müssen sie in ein einheitliches Format normalisiert werden. Hier liegt ein großer Teil der Komplexität. Verschiedene Quellen beschreiben dasselbe Werkzeug unterschiedlich. Die eine nennt es MCP-Server, die andere Plugin und die dritte Werkzeug. Eine ordnet es Datenbank zu, eine andere Daten und eine dritte Entwicklerwerkzeuge.

Normalisierung umfasst die Abbildung dieser unterschiedlichen Bezeichnungen auf eine einheitliche Taxonomie, die Standardisierung von Feldformaten (Datumsangaben, Versionsnummern, URLs) und das Auflösen von Konflikten, wenn Quellen sich widersprechen. Dieser Prozess ist teils automatisiert (über Mustererkennung und Heuristiken) und teils manuell (für Grenzfälle, die menschliches Urteil verlangen).

Deduplizierung

Dasselbe Werkzeug erscheint oft in mehreren Verzeichnissen, mitunter mit leicht abweichenden Namen oder Beschreibungen. Die Deduplizierung erkennt diese Duplikate und führt ihre Datensätze zu einem einzigen, angereicherten Eintrag zusammen. Der zusammengeführte Eintrag kombiniert die besten Metadaten jeder Quelle: die vollständigste Beschreibung, die aktuellste Versionsnummer und alle Qualitätssignale jedes auflistenden Verzeichnisses.

Deduplizierung ist anspruchsvoller, als sie klingt. Ein Werkzeug, das in einem Verzeichnis pg-mcp und im anderen postgres-mcp-server heißt, kann dasselbe oder zwei verschiedene Werkzeuge sein. Repository-URLs sind das verlässlichste Match-Kriterium, doch nicht alle Verzeichnisse enthalten sie. Namensähnlichkeit, Autorenvergleich und Beschreibungsabgleich tragen ebenfalls bei, mit manueller Prüfung in unsicheren Fällen.

Anreicherung und Bewertung

Nach Normalisierung und Deduplizierung wird der Datensatz jedes Werkzeugs mit berechneten Signalen angereichert. Sicherheitsbewertungen entstehen aus Abhängigkeitsanalysen und Wartungsaktivität. Beliebtheitssignale ergeben sich aus Download-Zahlen, GitHub-Stars und Verzeichnis-Präsenz. Trend-Signale identifizieren Werkzeuge, deren Metriken schneller wachsen als der Durchschnitt.

Die Querverweise selbst werden zum Qualitätssignal. Ein Werkzeug, das in fünf Verzeichnissen erscheint, wurde fünfmal unabhängig bewertet. Eines, das nur in einer automatisierten Registry steht, hatte weniger Prüfung. Diese Verzeichnis-Anzahl ist ein einfacher, aber wirksamer Indikator für das Vertrauen des Ökosystems.

Daten ausliefern

Die aggregierten, normalisierten, deduplizierten und angereicherten Daten werden über das Skillful.sh-Suchinterface bereitgestellt, wo Nutzer per Stichwort suchen, nach Typ, Kategorie, Sicherheitsbewertung und weiteren Facetten filtern und nach unterschiedlichen Qualitätssignalen sortieren können. Ziel ist es, was sonst Stunden manueller Recherche über Dutzende Websites kosten würde, in Sekunden Suche auf einer Plattform zu komprimieren.

Die Daten werden regelmäßig aktualisiert, um Änderungen in den Quellen abzubilden. Neue Werkzeuge erscheinen, sobald sie in Verzeichnisse aufgenommen werden. Sicherheitsbewertungen aktualisieren sich, wenn sich Abhängigkeiten ändern. Trend-Signale spiegeln die jüngsten Wachstumsmuster. Die aggregierte Sicht bleibt aktuell, weil die zugrunde liegende Pipeline aus Sammlung und Verarbeitung kontinuierlich läuft.

Weiterführende Lektüre

Durchsuchen Sie über 137.000 KI-Werkzeuge auf Skillful.sh. Statistiken zum KI-Ökosystem ansehen.