智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-05-14
arXiv
2605.15188

收录解读

FutureSim 把 agent 评测从静态任务推进到真实时间序列世界:系统按真实新闻出现顺序重放世界事件,让 agent 在知识截止后持续接收新信息并预测未来结果。

这个设置直接压测 long-horizon adaptation、搜索、记忆和不确定性推理,而不是只看一次性问答或封闭环境成功率。论文显示当前 frontier agents 在三个月事件预测中的表现仍很弱,暴露出真实世界适应能力缺口。

它值得正式收录,因为它提供了一个可复用的 adaptive-agent evaluation pattern:用真实世界事件回放构建 grounded simulation,衡量模型是否能随时间更新信念和策略。

它没有更高,是因为当前主要是评测基准,长期影响取决于是否扩展到更多领域、可重复事件流和标准化 agent harness。

链接