Benchmarking Multimodal CoT Reward Model Stepwise by Visual Program

多模态基础模型突破级暂无讲解视频

发表时间: 2025-04-09
arXiv: 2504.06606

收录解读

多模态大模型开始越来越依赖 reward signal 做训练和推理时扩展，但把语言模型那套 reward modeling 直接搬到多模态场景会遇到三个具体问题：标注成本高、奖励粒度过粗，以及缺少成体系的评测。这使得多模态 CoT reward model 仍停留在零散实验阶段，缺少像样的训练接口和统一比较基线。

这篇工作的核心贡献是提出 SVIP：通过让模型生成 visual task 求解代码，再把代码块分析转成 CoT step 级训练样本，自动构造 step-level、多维度的多模态 reward data；随后再用 TriAtt-CoT 训练 step-wise reward model，并配套给出 reward-model training/testing benchmark。论文报告该模型不仅能改进训练，也能在 inference-time scaling 中提升表现并降低 hallucination。

它值得正式收录，因为它把多模态 reward modeling 从单步打分推进到可训练、可测试、可迭代的 step-level 接口。这对 multimodal reasoning、reward model、inference-time scaling 和多模态安全评估都有明显外溢价值，不只是一个局部 benchmark 分数提升。

它暂时不升到更高一级，原因在于这条线目前还主要是多模态 reward model 子方向的强工作；是否能成为更广泛 MLLM 后训练和推理控制的稳定基础接口，还要看后续采用和复现情况。

链接

论文链接