Agentes Frontier Alcançam 25% em Teste de Previsão do Mundo Real
Pesquisadores propõem FutureSim, um benchmark onde agentes previram eventos globais enquanto ingerem artigos de notícias reais em ordem cronológica, testando sua capacidade de adaptação a novas informações além de seu conhecimento de corte. O framework de avaliação expõe lacunas de raciocínio adaptativo em agentes LLM de produção.
Generative Imagery
FutureSim: Agentes lutam com raciocínio adaptativo em tempo real com 25% de precisão. FIG. 01
