Memoria en agentes de IA: enfoques de corto y largo plazo

Por qué importa la memoria

Un agente sin memoria queda limitado a tareas de una sola sesión. Puede investigar un tema, redactar un informe o depurar un fragmento de código, pero sólo dentro de una conversación. Cuando esa sesión termina, todo lo aprendido se pierde. La siguiente sesión arranca desde cero.

Para muchos casos eso basta. La mayoría de las tareas de desarrollo, las consultas de investigación y las peticiones de análisis de datos son autocontenidas. Pero hay casos que requieren continuidad: monitorear sistemas en el tiempo, construir sobre investigaciones previas, hacer seguimiento del avance de un proyecto o mantener contexto sobre conversaciones en curso.

Memoria de corto plazo: la ventana de contexto

La forma más básica de memoria del agente es la propia ventana de contexto del modelo de lenguaje. A medida que el agente avanza con la tarea, el historial de la conversación se acumula. Las observaciones previas, los resultados de las herramientas y los pasos de razonamiento permanecen en el contexto e informan las decisiones siguientes.

Esto funciona bien cuando la tarea cabe en la ventana de contexto del modelo (que en los modelos modernos puede superar los 100.000 tokens). El agente recuerda perfectamente todo lo que pasó en la sesión actual. Puede referirse a hallazgos anteriores, corregir errores previos y construir sobre resultados intermedios.

La limitación es que las ventanas de contexto son finitas y caras. A medida que crece la conversación, cada nuevo paso cuesta más porque el modelo debe procesar todo el contexto previo. Para tareas largas se vuelve necesario gestionar el contexto: resumir pasos previos, descartar detalles irrelevantes y comprimir la conversación a sus elementos esenciales.

Memoria de trabajo: estado estructurado

Algunos frameworks de agentes implementan una memoria de trabajo como un almacén estructurado de datos que el agente mantiene durante la tarea. En lugar de depender únicamente del historial de conversación, el agente rastrea explícitamente variables, resultados intermedios y estado de la tarea en un formato más eficiente que el texto crudo.

Esa memoria de trabajo puede incluir: una lista de archivos ya examinados, un resumen de hallazgos hasta el momento, una cola de subtareas pendientes o un conjunto de hipótesis en evaluación. Este enfoque estructurado reduce el costo en tokens del mantenimiento del contexto y vuelve más transparente el estado del agente para desarrolladores y usuarios.

El trade-off es complejidad adicional. El agente necesita saber cuándo y cómo actualizar su memoria de trabajo, lo cual introduce otra fuente potencial de errores. Si no registra un hallazgo importante o actualiza mal su estado, las decisiones siguientes se basarán en información incompleta o errónea.

Memoria de largo plazo: almacenamiento persistente

La memoria de largo plazo permite a los agentes retener información entre sesiones. Cuando el agente aprende algo útil hoy, puede recordarlo la semana que viene. Eso habilita asistentes personales que recuerdan tus preferencias, agentes de investigación que se construyen sobre indagaciones previas y agentes de monitoreo que rastrean cambios en el tiempo.

Los enfoques comunes incluyen bases vectoriales (que guardan información como embeddings y recuperan por similitud semántica), almacenes clave-valor (que guardan hechos como datos estructurados) y almacenes documentales (que mantienen resúmenes de conversación o bases de conocimiento).

Las bases vectoriales son especialmente populares porque permiten consultas en lenguaje natural sobre la información almacenada. El agente puede preguntar «qué aprendí sobre los precios de la competencia» y recuperar memorias relevantes sin saber exactamente cómo se almacenaron. Encaja bien con cómo procesan información los modelos de lenguaje.

El reto de la recuperación

Almacenar memorias es la parte fácil. Recuperar las correctas en el momento correcto es difícil. Un agente con miles de memorias guardadas necesita identificar cuáles son relevantes para la tarea actual sin cargarlas todas en el contexto (lo cual sería caro y potencialmente confuso).

La generación aumentada por recuperación (RAG) aborda esto incrustando tanto la consulta como las memorias en un espacio vectorial y recuperando luego las semánticamente más similares. Funciona bien para recuerdo factual, pero puede tropezar con el contexto temporal (saber que una memoria de la semana pasada reemplaza a una del mes pasado) y el contexto relacional (conectar memorias relacionadas que son semánticamente distintas).

Recomendaciones prácticas

Para la mayoría de las aplicaciones, empieza con el enfoque de memoria más simple que funcione. La ventana de contexto suele ser suficiente para tareas de una sola sesión. Añade memoria de trabajo si el contexto crece demasiado o si el agente necesita rastrear estado estructurado. Añade memoria de largo plazo sólo si la continuidad entre sesiones es un requisito real.

Cada capa de memoria suma complejidad, costo y modos de fallo potenciales. Un agente que intenta gestionar un sistema sofisticado de memoria pero lo hace mal rendirá peor que uno que se apoya en una ventana de contexto simple y la usa bien. Ajusta la arquitectura de memoria a las necesidades reales de tu caso.

Lecturas relacionadas

Descubre agentes de IA en Skillful.sh. Busca entre más de 137.000 herramientas de IA.