>_Skillful
Need help with advanced AI agent engineering?Contact FirmAdapt
All Posts

Cómo gestionamos la actualidad de los datos en decenas de fuentes

Agregar datos de más de 50 fuentes implica que algunos datos siempre serán más recientes que otros. Gestionar la actualidad, detectar entradas obsoletas y mantener al día las puntuaciones es un reto técnico continuo.

April 25, 2026Basel Ismail
datos actualidad agregacion plataforma

El problema de la actualidad

Cuando agregas datos de más de 50 directorios, la información nunca está perfectamente sincronizada. El directorio A puede actualizarse cada hora; el B, semanalmente; el C puede mantenerlo un voluntario que lo actualiza cuando tiene tiempo. El resultado es un dataset donde algunas entradas se verificaron hace minutos y otras hace semanas.

Los usuarios esperan que los datos que ven sean actuales. Si están consultando la calificación de seguridad de un servidor MCP, quieren que la nota refleje el estado actual de las dependencias, no el del mes pasado. Si miran cifras de descargas, quieren números recientes, no obsoletos.

Estrategias de crawling

Cada fuente justifica una frecuencia de crawling distinta. Los registros de paquetes (npm, PyPI), que se actualizan continuamente, se rastrean a menudo. Las awesome lists mantenidas por la comunidad, que cambian semanalmente, se rastrean con menos frecuencia. Las métricas de los repositorios de GitHub se obtienen periódicamente porque cambian relativamente despacio.

Un crawling basado en prioridades ayuda a asignar recursos. Las herramientas más populares (más descargas, más estrellas, más presencia en directorios) se refrescan con más frecuencia que las menos usadas. Así, las herramientas que más gente está consultando son las que tienen los datos más frescos.

El crawling guiado por eventos complementa al programado. Cuando una herramienta publica una nueva versión en npm, ese evento dispara un refresco específico para esa herramienta sin tener que esperar al próximo crawl planificado. Esta forma mantiene al día las herramientas en desarrollo activo sin aumentar la carga global del crawler.

Detección de obsolescencia

Cada dato lleva una marca temporal con la última verificación. Los umbrales de obsolescencia definen cuán viejo puede ser un dato antes de necesitar actualización. Una cifra de descargas de hace dos días probablemente esté bien. Una puntuación de seguridad de hace seis meses puede ser engañosa si las dependencias han cambiado.

Los distintos tipos de dato tienen distintas tolerancias a la obsolescencia. Los metadatos estáticos (nombre, autor, descripción) cambian poco y pueden cachearse durante más tiempo. Las métricas dinámicas (descargas, estrellas, puntuaciones de seguridad) cambian más y requieren actualizaciones más frecuentes. Una caché basada en volatilidad ajusta los ritmos de refresco a la velocidad real con la que cambia cada tipo de dato.

Recálculo de puntuaciones

Las puntuaciones de seguridad y métricas de calidad necesitan recálculos periódicos a medida que cambian los datos subyacentes. La calificación de seguridad de una herramienta puede cambiar cuando una de sus dependencias publica un parche. La nota de calidad puede cambiar cuando aumenta o disminuye la actividad de mantenimiento.

Recalcular todas las puntuaciones para más de 100.000 herramientas es costoso en cómputo. El recálculo incremental, disparado por cambios en los datos subyacentes, es más eficiente. Cuando cambia el árbol de dependencias de una herramienta, sólo es necesario recalcular su puntuación de seguridad. Cuando una herramienta se añade a un nuevo directorio, sólo se actualiza su nota de presencia en directorios.

Comunicar la actualidad

La transparencia sobre la actualidad de los datos ayuda a los usuarios a calibrar su confianza. Mostrar marcas de «última actualización», indicar cuándo se recalcularon las puntuaciones y señalar datos potencialmente obsoletos permite tomar decisiones informadas.

Cuando un dato no puede verificarse (por ejemplo, porque una fuente está temporalmente caída), la respuesta adecuada es mostrar el último dato conocido con un indicador de obsolescencia, en lugar de retirar la herramienta de los resultados. Así, el usuario decide si la información es lo bastante reciente para sus fines.


Lecturas relacionadas

Busca entre más de 137.000 herramientas de IA en Skillful.sh. Consulta estadísticas del ecosistema.