FutureSim: Replaying World Events to Evaluate Adaptive Agents

智能体与自主科学突破级暂无讲解视频

收录解读

FutureSim 把 agent 评测从静态任务推进到真实时间序列世界：系统按真实新闻出现顺序重放世界事件，让 agent 在知识截止后持续接收新信息并预测未来结果。

这个设置直接压测 long-horizon adaptation、搜索、记忆和不确定性推理，而不是只看一次性问答或封闭环境成功率。论文显示当前 frontier agents 在三个月事件预测中的表现仍很弱，暴露出真实世界适应能力缺口。

它值得正式收录，因为它提供了一个可复用的 adaptive-agent evaluation pattern：用真实世界事件回放构建 grounded simulation，衡量模型是否能随时间更新信念和策略。

它没有更高，是因为当前主要是评测基准，长期影响取决于是否扩展到更多领域、可重复事件流和标准化 agent harness。