科学发现旗舰工作
突破级
暂无讲解视频
收录解读
AI scientist 评测不能只看最终答案是否对,还要看模型是否通过真实可解释机制获得答案。
CausaLab 把 agent 放进 synthetic laboratory:给定观测记录,允许对 manipulator crystal 做干预,然后预测 reactor crystal,同时需要恢复隐藏 structural causal model 的图结构和方程。
实验显示强模型在 prediction accuracy 上可以很高,但机制恢复仍明显不足;混合观测-干预策略提高结构忠实度,premature stopping 是主要失败模式之一。
它值得收录,因为它把科学发现 agent 的评测从答题推进到 interactive causal experimentation 和 mechanism recovery,这正是自主科学系统需要的核心能力。