科学发现旗舰工作 突破级 暂无讲解视频
发表时间
2026-05-28
arXiv
2605.26029

收录解读

AI scientist 评测不能只看最终答案是否对,还要看模型是否通过真实可解释机制获得答案。

CausaLab 把 agent 放进 synthetic laboratory:给定观测记录,允许对 manipulator crystal 做干预,然后预测 reactor crystal,同时需要恢复隐藏 structural causal model 的图结构和方程。

实验显示强模型在 prediction accuracy 上可以很高,但机制恢复仍明显不足;混合观测-干预策略提高结构忠实度,premature stopping 是主要失败模式之一。

它值得收录,因为它把科学发现 agent 的评测从答题推进到 interactive causal experimentation 和 mechanism recovery,这正是自主科学系统需要的核心能力。

链接