Policy and World Modeling Co-Training for Language Agents

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-06-01
arXiv: 2606.02388

核心要点

问题/背景: RL 告诉 language agent 哪些动作高奖励，但很少直接监督动作如何改变环境。
方法/机制: PaW 利用 on-policy rollouts 中天然存在的 action-next-observation transitions，在同一个 policy 上加入 world modeling auxiliary supervision，并用数据选择、抗噪 loss 和 reward-adaptive balancing 稳定训练。
结果/证据: 它值得收录，因为它把 world modeling 融入 agent RL 训练，而不是额外 simulator 或推理时模块。
收录价值: 按当前收录规则，它属于近期值得正式跟踪的可复用方法或系统模式；但作为新近预印本，后续仍需要代码、复现和真实部署结果来确认长期影响。

完整收录解读

RL 告诉 language agent 哪些动作高奖励，但很少直接监督动作如何改变环境。

PaW 利用 on-policy rollouts 中天然存在的 action-next-observation transitions，在同一个 policy 上加入 world modeling auxiliary supervision，并用数据选择、抗噪 loss 和 reward-adaptive balancing 稳定训练。

它值得收录，因为它把 world modeling 融入 agent RL 训练，而不是额外 simulator 或推理时模块。

按当前收录规则，它属于近期值得正式跟踪的可复用方法或系统模式；但作为新近预印本，后续仍需要代码、复现和真实部署结果来确认长期影响。

论文摘要

PaW通过为离策略强化学习的语言代理进行辅助世界模型监督，实现策略和转换预测的联合训练，而无需改变推理时的行为。

英文原文

PaW adds auxiliary world-model supervision to on-policy RL rollouts for language agents, co-training policy and transition prediction without changing inference-time behavior.

链接

论文链接论文链接代码

核心要点

论文摘要

相关论文

链接