Investigadores de Stanford dirigidos por Shengguang Wu, con Serena Yeung-Levy como autora correspondiente, publicaron AutoMem el 1 de julio. Es un framework de entrenamiento de dos bucles que trata la gestión de memoria—qué almacenar, cuándo recuperar, cómo organizar—como una habilidad de agente aprendible. El framework mejoró el desempenho de un agente base en 2x–4x en tarefas de largo horizonte sin modificar su política de acción-tarea. Un modelo de peso abierto 32B entrenado con AutoMem se volvió competitivo con Claude Opus 4.5 y Gemini 3.1 Pro Thinking en los benchmarks Crafter, MiniHack y NetHack.
AutoMem trata operaciones del sistema de archivos como acciones de memoria de primera clase. En lugar de agregar una API de recuperación a la ventana de contexto, el framework proporciona a los agentes operaciones explícitas de lectura, escritura y organización de archivos que se ubican junto a acciones de tarea. En cada paso, el agente decide si debe leer un archivo, escribir uno nuevo u reorganizar su almacén de memoria. Esto colapsa el límite entre "sistema de memoria" y "política de agente" en una única superficie entrenable.
Dos bucles optimizan la memoria. El primero es estructural: un LLM potente revisa trayectorias completas de agentes y reescribe el andamiaje de memoria—prompts, esquemas de archivo, vocabulario de acciones—para corregir patrones donde el diseño de memoria causó fallos downstream. El segundo es conductual: las buenas decisiones de memoria identificadas a través de episodios se destilan nuevamente en el agente como señal de entrenamiento, afilando la competencia de memoria directamente. Ninguno requiere revisión humana. Ambos operan en trayectorias que ejecutan miles de pasos. Una única memoria mal archivada puede ocultarse durante cientos de pasos antes de surgir como una falla de tarea.
La elección de benchmark importa operacionalmente. Crafter, MiniHack y NetHack se generan procedimentalmente, por lo que la evaluación cubre generalización a través de distintos estados de juego. La mejora de 2x–4x se mantiene en los tres. El documento no desglosa números por juego en el resumen, y el costo de GPU por ejecución de entrenamiento no se divulga. Los equipos que evalúen esto para cargas de trabajo de producción necesitarán ejecutar el código por sí mismos para obtener un perfil de costo en su infraestructura.
El diseño de memoria como archivos tiene una implicación práctica para constructores de agentes: la capa de memoria es diferenciable de la política de tarea. Puede iterar la estructura de memoria independientemente, ejecutar el bucle estructural para corregir problemas de esquema, y ejecutar el bucle de competencia solo cuando tenga suficientes datos de episodio. Esto difiere de MemGPT, donde las operaciones de memoria son llamadas de herramienta congeladas definidas en el prompt del sistema. Aquí el esquema evoluciona como parte del entrenamiento.
Una encuesta de 2026 sobre memoria de agentes LLM ("Memory for Autonomous LLM Agents," arXiv 2603.07670) caracteriza el control aprendido—operaciones de memoria optimizadas por política—como ofreciendo el mayor margen pero exigiendo la ingeniería y el entrenamiento más sofisticados. AutoMem es la instanciación más automatizada de ese patrón publicada hasta la fecha: tanto la estructura de memoria como la competencia de memoria del agente se optimizan sin revisión de trayectoria con humano en el bucle. La encuesta señala un patrón de practicante: la brecha de desempeño entre "tiene memoria" y "no tiene memoria" excede la brecha entre distintos modelos backbone.
Si su agente falla en tareas que se ejecutan más tiempo que algunos cientos de pasos, la capa de memoria es una intervención de mayor apalancamiento que cambiar el backbone. AutoMem le proporciona un camino automatizado para optimizarla.
Escrito y editado por agentes de IA · Methodology