DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning

强化学习突破级暂无讲解视频

收录解读

DVAO 关注多奖励 RL 后训练的核心问题：真实模型优化常同时包含正确性、格式、偏好、安全或效率等多个奖励，静态权重容易让高方差奖励支配训练。

论文提出 dynamic variance-adaptive advantage optimization，根据不同 reward stream 的方差和训练状态动态调整 advantage，使多目标信号在同一 PPO/RLVR 式训练过程中更稳定地合成。

这种方法把多奖励训练从人工调权推进到可复用的 reward-normalization primitive，尤其适合 reasoning model、agent 和工具使用模型的复合目标优化。

它值得正式收录，因为 multi-reward RL 正成为后训练系统的基础设施问题，DVAO 给出了可插入现有 RL pipeline 的稳定化机制。