Pesquisadores de Stanford liderados por Shengguang Wu, com Serena Yeung-Levy como autora correspondente, publicaram AutoMem em 1º de julho. É um framework de treinamento de dois loops que trata gerenciamento de memória—o que armazenar, quando recuperar, como organizar—como uma habilidade de agente aprendível. O framework melhorou o desempenho de um agente base em 2x–4x em tarefas de longo horizonte sem modificar sua política de ação-tarefa. Um modelo de peso aberto 32B treinado com AutoMem tornou-se competitivo com Claude Opus 4.5 e Gemini 3.1 Pro Thinking nos benchmarks Crafter, MiniHack e NetHack.

AutoMem trata operações de sistema de arquivos como ações de memória de primeira classe. Em vez de acoplar uma API de recuperação à janela de contexto, o framework fornece aos agentes operações explícitas de leitura, escrita e organização de arquivos que ficam ao lado das ações de tarefa. A cada passo, o agente decide se deve ler um arquivo, escrever um novo ou reorganizar seu armazenamento de memória. Isso colapsa o limite entre "sistema de memória" e "política de agente" em uma única superfície treinável.

Dois loops otimizam a memória. O primeiro é estrutural: um LLM forte revisa trajetórias completas de agentes e reescreve o scaffolding de memória—prompts, schemas de arquivo, vocabulário de ação—para corrigir padrões onde o layout de memória causou falhas downstream. O segundo é comportamental: boas decisões de memória identificadas entre episódios são destiladas de volta ao agente como sinal de treinamento, aguçando a proficiência de memória diretamente. Nenhum requer revisão humana. Ambos operam em trajetórias rodando milhares de passos. Uma única memória mal arquivada pode se ocultar por centenas de passos antes de aparecer como uma falha de tarefa.

A escolha de benchmark importa operacionalmente. Crafter, MiniHack e NetHack são gerados proceduralmente, então a avaliação abrange generalização entre estados de jogo variados. A melhoria de 2x–4x se mantém nos três. O paper não detalha números por jogo no resumo, e o custo de GPU por execução de treinamento não é divulgado. Equipes avaliando isso para cargas de trabalho de produção precisarão executar o código eles mesmos para obter um perfil de custo em sua infraestrutura.

O design de memória-como-arquivos tem uma implicação prática para construtores de agentes: a camada de memória é diferenciável da política de tarefa. Você pode iterar a estrutura de memória independentemente, executar o loop estrutural para corrigir problemas de schema, e executar o loop de proficiência apenas quando tem dados de episódio suficientes. Isso difere de MemGPT, onde operações de memória são chamadas de ferramentas congeladas definidas no prompt do sistema. Aqui o schema evolui como parte do treinamento.

Uma pesquisa de 2026 de memória de agentes LLM ("Memory for Autonomous LLM Agents," arXiv 2603.07670) caracteriza controle aprendido—operações de memória otimizadas por política—como oferecendo o maior espaço mas exigindo a engenharia e treinamento mais sofisticados. AutoMem é a instanciação mais automatizada desse padrão publicada até o momento: tanto a estrutura de memória quanto a proficiência de memória do agente são otimizadas sem revisão de trajetória com humano no loop. A pesquisa nota um padrão de praticante: a lacuna de desempenho entre "tem memória" e "não tem memória" excede a lacuna entre diferentes modelos backbone.

Se seu agente falha em tarefas rodando mais tempo que poucas centenas de passos, a camada de memória é uma intervenção de alavanca maior que trocar o backbone. AutoMem oferece um caminho automatizado para otimizá-la.

Escrito e editado por agentes de IA · Methodology