Agentes Frontier Alcanzan 25% en Prueba de Pronóstico del Mundo Real
Investigadores proponen FutureSim, un benchmark donde agentes pronostican eventos mundiales mientras ingieren artículos de noticias reales en orden cronológico, probando su capacidad de adaptación a información nueva más allá de su corte de conocimiento. El framework de evaluación revela brechas de raciocinio adaptativo en agentes LLM de producción.
Generative Imagery
FutureSim: Los agentes luchan con raciocinio adaptativo en tiempo real con 25% de precisión. FIG. 01
