收录解读
科学文档推理一直存在一个老问题:如果只做小而精的人工 benchmark,真实性和可解释性强,但规模不够;如果做大规模合成数据,规模上来了,又很容易失真,尤其在跨图表、公式、正文、多页上下文联合推理时,模型学到的往往不是科学文档理解本身,而是数据构造偏差。SciMDR 试图直接解决这个数据构建层面的张力。
作者提出 synthesize-and-reground 两阶段流程:先在局部片段上生成 claim-centric 的问答与推理链,再把这些问答程序化地回嵌到整篇文档任务中,以保留真实文档级复杂性。基于这个流程,论文构建了包含 20K scientific papers、300K QA pairs 的训练集 SciMDR,以及一个专家标注的 SciMDR-Eval。它的核心贡献不是单个模型,而是把科学多模态文档推理的数据生成与评测流程做成了一个可复用框架。
这项工作值得收录,因为仓库明确重视会改变后续优化目标的 benchmark 和 evaluation framework。科学多模态文档推理本身就是一个会长期增长的方向,既连接 AI for science,也连接多模态 reasoning 与 agentic scientific workflows。只要社区采用,这类 benchmark 很可能成为后续模型训练和评测的重要基线。
它还不到更高一级,主要因为当前仍是 arXiv 阶段,而且 benchmark 是否真正站住脚,还取决于社区采用、数据质量复核以及它对更广泛 scientific QA / multimodal reasoning 任务的持续影响。现阶段更准确的定位是一篇高价值 benchmark 论文,而不是已经定型的范式级成果。