强化学习
突破级
暂无讲解视频
收录解读
DVAO 关注多奖励 RL 后训练的核心问题:真实模型优化常同时包含正确性、格式、偏好、安全或效率等多个奖励,静态权重容易让高方差奖励支配训练。
论文提出 dynamic variance-adaptive advantage optimization,根据不同 reward stream 的方差和训练状态动态调整 advantage,使多目标信号在同一 PPO/RLVR 式训练过程中更稳定地合成。
这种方法把多奖励训练从人工调权推进到可复用的 reward-normalization primitive,尤其适合 reasoning model、agent 和工具使用模型的复合目标优化。
它值得正式收录,因为 multi-reward RL 正成为后训练系统的基础设施问题,DVAO 给出了可插入现有 RL pipeline 的稳定化机制。