多模态基础模型
突破级
暂无讲解视频
收录解读
这篇论文处理的是多模态生成训练中的 reward specification 问题。隐式偏好难以审计、难以复用,也容易把模型推向不可解释的 reward hacking。
Auto-Rubric 的关键点是把偏好转成显式 rubric,并把 rubric 作为 reward。这个接口有利于把多模态生成评价从黑箱偏好模型推进到可读、可修改、可验证的标准集合。
它值得正式收录,因为生成模型后训练正在从单一偏好分数转向更结构化的评价和验证。显式 rubric 可能成为 multimodal RL / reward modeling 的重要工程抽象。
它没有更高,是因为 rubric 质量、自动生成 rubric 的偏差、以及与人类真实偏好的一致性仍需长期验证。