Aligning Language Models from User Interactions

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-02-18
arXiv: 2603.12273

收录解读

这篇论文关注的是部署后语言模型最真实、也最容易被浪费的一类数据：多轮用户交互。大量真实对话里都包含了隐式反馈，例如用户继续追问、纠错、表达不满或改写要求，但现有对齐方法通常依赖显式偏好标注、奖励模型或专门构造的数据集，无法直接把这些自然交互转化为学习信号。

作者提出的核心方法是利用同一个模型的 hindsight 能力做自蒸馏。给定一轮原始回复，再把后续用户消息作为额外上下文喂回模型，得到一个事后策略；然后把这个事后分布与原始策略做对比，提取 token 级的概率变化，并把这种“如果当时知道后续反馈，会怎么说得更好”的信号蒸馏回当前策略。这样就能从原始交互中直接得到可解释的对齐梯度，而不需要单独训练奖励模型。

这篇论文值得收录，因为它打通了一个很重要的实际闭环：模型部署产生的自然用户交互，本身就可以成为持续对齐和个性化的数据源。它不是简单地把聊天记录拿去做 SFT，而是通过 hindsight 分布比较实现更细粒度的 credit assignment。论文在 WildChat 这类真实数据上展示出对标准 alignment 和 instruction-following 指标的稳定提升，同时还支持快速个性化，这对实用对齐、持续学习和产品化训练管线都有直接价值。

它没有升到更高一级，主要因为目前仍是 arXiv 论文，而且方法效果仍受到基座模型 ICL 能力和数据分布的影响。它是一条很强的部署后学习路径，但还没证明自己会成为所有在线对齐系统的默认标准范式。

链接

论文链接