El Entrenamiento de AutoMem Duplica el Desempeño del Agente en Tareas de Largo Horizonte

Investigadores de Stanford dirigidos por Shengguang Wu, con Serena Yeung-Levy como autora correspondiente, publicaron AutoMem el 1 de julio. Es un framework de entrenamiento de dos bucles que trata la gestión de memoria—qué almacenar, cuándo recuperar, cómo organizar—como una habilidad de agente aprendible. El framework mejoró el desempenho de un agente base en 2x–4x en tarefas de largo horizonte sin modificar su política de acción-tarea. Un modelo de peso abierto 32B entrenado con AutoMem se volvió competitivo con Claude Opus 4.5 y Gemini 3.1 Pro Thinking en los benchmarks Crafter, MiniHack y NetHack.

AutoMem trata operaciones del sistema de archivos como acciones de memoria de primera clase. En lugar de agregar una API de recuperación a la ventana de contexto, el framework proporciona a los agentes operaciones explícitas de lectura, escritura y organización de archivos que se ubican junto a acciones de tarea. En cada paso, el agente decide si debe leer un archivo, escribir uno nuevo u reorganizar su almacén de memoria. Esto colapsa el límite entre "sistema de memoria" y "política de agente" en una única superficie entrenable.

Dos bucles optimizan la memoria. El primero es estructural: un LLM potente revisa trayectorias completas de agentes y reescribe el andamiaje de memoria—prompts, esquemas de archivo, vocabulario de acciones—para corregir patrones donde el diseño de memoria causó fallos downstream. El segundo es conductual: las buenas decisiones de memoria identificadas a través de episodios se destilan nuevamente en el agente como señal de entrenamiento, afilando la competencia de memoria directamente. Ninguno requiere revisión humana. Ambos operan en trayectorias que ejecutan miles de pasos. Una única memoria mal archivada puede ocultarse durante cientos de pasos antes de surgir como una falla de tarea.

La elección de benchmark importa operacionalmente. Crafter, MiniHack y NetHack se generan procedimentalmente, por lo que la evaluación cubre generalización a través de distintos estados de juego. La mejora de 2x–4x se mantiene en los tres. El documento no desglosa números por juego en el resumen, y el costo de GPU por ejecución de entrenamiento no se divulga. Los equipos que evalúen esto para cargas de trabajo de producción necesitarán ejecutar el código por sí mismos para obtener un perfil de costo en su infraestructura.

El diseño de memoria como archivos tiene una implicación práctica para constructores de agentes: la capa de memoria es diferenciable de la política de tarea. Puede iterar la estructura de memoria independientemente, ejecutar el bucle estructural para corregir problemas de esquema, y ejecutar el bucle de competencia solo cuando tenga suficientes datos de episodio. Esto difiere de MemGPT, donde las operaciones de memoria son llamadas de herramienta congeladas definidas en el prompt del sistema. Aquí el esquema evoluciona como parte del entrenamiento.

Una encuesta de 2026 sobre memoria de agentes LLM ("Memory for Autonomous LLM Agents," arXiv 2603.07670) caracteriza el control aprendido—operaciones de memoria optimizadas por política—como ofreciendo el mayor margen pero exigiendo la ingeniería y el entrenamiento más sofisticados. AutoMem es la instanciación más automatizada de ese patrón publicada hasta la fecha: tanto la estructura de memoria como la competencia de memoria del agente se optimizan sin revisión de trayectoria con humano en el bucle. La encuesta señala un patrón de practicante: la brecha de desempeño entre "tiene memoria" y "no tiene memoria" excede la brecha entre distintos modelos backbone.

Si su agente falla en tareas que se ejecutan más tiempo que algunos cientos de pasos, la capa de memoria es una intervención de mayor apalancamiento que cambiar el backbone. AutoMem le proporciona un camino automatizado para optimizarla.

Sources

AutoMem improved base agent performance 2x–4x on Crafter, MiniHack, and NetHack by optimizing memory alone
"optimizing memory alone--without modifying the model's task-action behavior--improved the base agent's performance ~2x-4x"
arxiv.org ↗
A 32B open-weight model trained with AutoMem became competitive with frontier systems such as Claude Opus 4.5 and Gemini 3.1 Pro Thinking
"bringing a 32B open-weight model competitive with frontier systems such as Claude Opus 4.5 and Gemini 3.1 Pro Thinking"
arxiv.org ↗
AutoMem promotes file-system operations to first-class memory actions alongside task actions, letting the model decide how to manage its memory
"We promote file-system operations to first-class memory actions alongside task actions, letting the model itself decide how to manage its memory."
arxiv.org ↗
AutoMem uses two optimization loops: a structural loop where a strong LLM revises memory scaffolding from trajectories, and a proficiency loop where good memory decisions are distilled as training signal
"In the first loop, a strong LLM reviews complete agent trajectories and iteratively revises the memory structure that shapes how the agent interacts with its memory files. In the second loop, the agent's own good memory decisions are identified from many episodes and used as training signal to sharpen the model's memory proficiency directly."
arxiv.org ↗
Episodes in long-horizon tasks run for thousands of steps, making manual trajectory review impractical — a single memory mistake can hide long before it surfaces
"episodes in long-horizon tasks run for thousands of steps, and a single memory mistake can hide long before it surfaces, making human review of full trajectories impractical"
arxiv.org ↗
Memory management is shown to be an independently learnable skill and a high-leverage objective for long-horizon tasks
"Our results show that memory management is an independently learnable skill, and a high-leverage objective yielding large gains on long-horizon tasks."
arxiv.org ↗
Lead author is Shengguang Wu; Serena Yeung-Levy is the corresponding/senior author
"Shengguang Wu, Hao Zhu, Yuhui Zhang, Xiaohan Wang, Serena Yeung-Levy"
arxiv.org ↗
A 2026 survey characterizes learned memory control as offering the most headroom but demanding the most sophisticated engineering and training
"Learned control treats memory operations as policy actions optimized end-to-end... The payoff is substantial... but so is the training cost."
arxiv.org ↗
The performance gap between 'has memory' and 'does not have memory' tends to exceed the gap between different backbone models
"Model selection gets months of careful benchmarking; memory architecture often gets an afternoon. The evidence reviewed here suggests that flipping this priority—treating memory as a first-class system component worthy of dedicated design, testing, and optimization—may be the single highest-leverage intervention available to agent builders"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

El Entrenamiento de AutoMem Duplica el Desempeño del Agente en Tareas de Largo Horizonte

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.