Efficient Exploration at Scale

强化学习突破级有讲解视频

发表时间: 2026-03-18
arXiv: 2603.17378

收录解读

这篇论文针对的是 RLHF 中一个长期悬而未决但非常现实的问题：离线式偏好学习虽然有效，却极度耗标签，导致高质量对齐过程越来越像昂贵的数据工程。作者把重点放在在线 RLHF 上，目标不是在固定偏好数据集上继续挤分，而是在真实交互过程中边收选择反馈、边更新奖励模型和语言模型，让探索和学习同步发生，从而显著降低样本需求。

方法上的核心是把 reward uncertainty 建模和 information-directed exploration 明确引入在线 RLHF。系统随着 choice data 到来增量更新 reward model，并用其提供的强化信号更新语言模型；同时通过 epistemic neural network 表征奖励不确定性，再结合 information-directed exploration 决定该探索哪里。作者还加入一个小的 affirmative nudge 来稳定强化信号，使在线学习过程在数据效率和训练稳定性上都更可用。

这篇工作值得正式收录，因为它不是普通的 RLHF 配方小修补，而是把在线对齐、奖励不确定性建模和高效探索系统地连成了一条可复用路线。论文给出的结果也有明确说服力：在 Gemma 大模型上，用不到 2 万个 labels 达到离线 RLHF 20 万 labels 的水平，体现出 10 倍以上的数据效率提升。对对齐、主动学习式偏好优化和可持续数据闭环都有直接外溢。

它目前适合定为 breakthrough，而不是更高一级。原因是这仍是一篇预印本，且主要证据集中在作者给定的实验设置与模型家族上。信息导向探索在 RL 与 bandit 里有成熟思想基础，这篇论文的价值更像是把这些思想强有力地带入 RLHF 并做出规模化验证，而不是独立开辟一条全新理论主线。

解读视频

B 站 YouTube

链接

论文链接