Treinamento do AutoMem Duplica Desempenho de Agentes em Tarefas de Longo Horizonte

Pesquisadores de Stanford liderados por Shengguang Wu, com Serena Yeung-Levy como autora correspondente, publicaram AutoMem em 1º de julho. É um framework de treinamento de dois loops que trata gerenciamento de memória—o que armazenar, quando recuperar, como organizar—como uma habilidade de agente aprendível. O framework melhorou o desempenho de um agente base em 2x–4x em tarefas de longo horizonte sem modificar sua política de ação-tarefa. Um modelo de peso aberto 32B treinado com AutoMem tornou-se competitivo com Claude Opus 4.5 e Gemini 3.1 Pro Thinking nos benchmarks Crafter, MiniHack e NetHack.

AutoMem trata operações de sistema de arquivos como ações de memória de primeira classe. Em vez de acoplar uma API de recuperação à janela de contexto, o framework fornece aos agentes operações explícitas de leitura, escrita e organização de arquivos que ficam ao lado das ações de tarefa. A cada passo, o agente decide se deve ler um arquivo, escrever um novo ou reorganizar seu armazenamento de memória. Isso colapsa o limite entre "sistema de memória" e "política de agente" em uma única superfície treinável.

Dois loops otimizam a memória. O primeiro é estrutural: um LLM forte revisa trajetórias completas de agentes e reescreve o scaffolding de memória—prompts, schemas de arquivo, vocabulário de ação—para corrigir padrões onde o layout de memória causou falhas downstream. O segundo é comportamental: boas decisões de memória identificadas entre episódios são destiladas de volta ao agente como sinal de treinamento, aguçando a proficiência de memória diretamente. Nenhum requer revisão humana. Ambos operam em trajetórias rodando milhares de passos. Uma única memória mal arquivada pode se ocultar por centenas de passos antes de aparecer como uma falha de tarefa.

A escolha de benchmark importa operacionalmente. Crafter, MiniHack e NetHack são gerados proceduralmente, então a avaliação abrange generalização entre estados de jogo variados. A melhoria de 2x–4x se mantém nos três. O paper não detalha números por jogo no resumo, e o custo de GPU por execução de treinamento não é divulgado. Equipes avaliando isso para cargas de trabalho de produção precisarão executar o código eles mesmos para obter um perfil de custo em sua infraestrutura.

O design de memória-como-arquivos tem uma implicação prática para construtores de agentes: a camada de memória é diferenciável da política de tarefa. Você pode iterar a estrutura de memória independentemente, executar o loop estrutural para corrigir problemas de schema, e executar o loop de proficiência apenas quando tem dados de episódio suficientes. Isso difere de MemGPT, onde operações de memória são chamadas de ferramentas congeladas definidas no prompt do sistema. Aqui o schema evolui como parte do treinamento.

Uma pesquisa de 2026 de memória de agentes LLM ("Memory for Autonomous LLM Agents," arXiv 2603.07670) caracteriza controle aprendido—operações de memória otimizadas por política—como oferecendo o maior espaço mas exigindo a engenharia e treinamento mais sofisticados. AutoMem é a instanciação mais automatizada desse padrão publicada até o momento: tanto a estrutura de memória quanto a proficiência de memória do agente são otimizadas sem revisão de trajetória com humano no loop. A pesquisa nota um padrão de praticante: a lacuna de desempenho entre "tem memória" e "não tem memória" excede a lacuna entre diferentes modelos backbone.

Se seu agente falha em tarefas rodando mais tempo que poucas centenas de passos, a camada de memória é uma intervenção de alavanca maior que trocar o backbone. AutoMem oferece um caminho automatizado para otimizá-la.

Sources

AutoMem improved base agent performance 2x–4x on Crafter, MiniHack, and NetHack by optimizing memory alone
"optimizing memory alone--without modifying the model's task-action behavior--improved the base agent's performance ~2x-4x"
arxiv.org ↗
A 32B open-weight model trained with AutoMem became competitive with frontier systems such as Claude Opus 4.5 and Gemini 3.1 Pro Thinking
"bringing a 32B open-weight model competitive with frontier systems such as Claude Opus 4.5 and Gemini 3.1 Pro Thinking"
arxiv.org ↗
AutoMem promotes file-system operations to first-class memory actions alongside task actions, letting the model decide how to manage its memory
"We promote file-system operations to first-class memory actions alongside task actions, letting the model itself decide how to manage its memory."
arxiv.org ↗
AutoMem uses two optimization loops: a structural loop where a strong LLM revises memory scaffolding from trajectories, and a proficiency loop where good memory decisions are distilled as training signal
"In the first loop, a strong LLM reviews complete agent trajectories and iteratively revises the memory structure that shapes how the agent interacts with its memory files. In the second loop, the agent's own good memory decisions are identified from many episodes and used as training signal to sharpen the model's memory proficiency directly."
arxiv.org ↗
Episodes in long-horizon tasks run for thousands of steps, making manual trajectory review impractical — a single memory mistake can hide long before it surfaces
"episodes in long-horizon tasks run for thousands of steps, and a single memory mistake can hide long before it surfaces, making human review of full trajectories impractical"
arxiv.org ↗
Memory management is shown to be an independently learnable skill and a high-leverage objective for long-horizon tasks
"Our results show that memory management is an independently learnable skill, and a high-leverage objective yielding large gains on long-horizon tasks."
arxiv.org ↗
Lead author is Shengguang Wu; Serena Yeung-Levy is the corresponding/senior author
"Shengguang Wu, Hao Zhu, Yuhui Zhang, Xiaohan Wang, Serena Yeung-Levy"
arxiv.org ↗
A 2026 survey characterizes learned memory control as offering the most headroom but demanding the most sophisticated engineering and training
"Learned control treats memory operations as policy actions optimized end-to-end... The payoff is substantial... but so is the training cost."
arxiv.org ↗
The performance gap between 'has memory' and 'does not have memory' tends to exceed the gap between different backbone models
"Model selection gets months of careful benchmarking; memory architecture often gets an afternoon. The evidence reviewed here suggests that flipping this priority—treating memory as a first-class system component worthy of dedicated design, testing, and optimization—may be the single highest-leverage intervention available to agent builders"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Treinamento do AutoMem Duplica Desempenho de Agentes em Tarefas de Longo Horizonte

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.