多模态基础模型
突破级
暂无讲解视频
收录解读
多模态大模型开始越来越依赖 reward signal 做训练和推理时扩展,但把语言模型那套 reward modeling 直接搬到多模态场景会遇到三个具体问题:标注成本高、奖励粒度过粗,以及缺少成体系的评测。这使得多模态 CoT reward model 仍停留在零散实验阶段,缺少像样的训练接口和统一比较基线。
这篇工作的核心贡献是提出 SVIP:通过让模型生成 visual task 求解代码,再把代码块分析转成 CoT step 级训练样本,自动构造 step-level、多维度的多模态 reward data;随后再用 TriAtt-CoT 训练 step-wise reward model,并配套给出 reward-model training/testing benchmark。论文报告该模型不仅能改进训练,也能在 inference-time scaling 中提升表现并降低 hallucination。
它值得正式收录,因为它把多模态 reward modeling 从单步打分推进到可训练、可测试、可迭代的 step-level 接口。这对 multimodal reasoning、reward model、inference-time scaling 和多模态安全评估都有明显外溢价值,不只是一个局部 benchmark 分数提升。
它暂时不升到更高一级,原因在于这条线目前还主要是多模态 reward model 子方向的强工作;是否能成为更广泛 MLLM 后训练和推理控制的稳定基础接口,还要看后续采用和复现情况。