智能体与自主科学
突破级
暂无讲解视频
核心要点
- 问题/背景
- RL 告诉 language agent 哪些动作高奖励,但很少直接监督动作如何改变环境。
- 方法/机制
- PaW 利用 on-policy rollouts 中天然存在的 action-next-observation transitions,在同一个 policy 上加入 world modeling auxiliary supervision,并用数据选择、抗噪 loss 和 reward-adaptive balancing 稳定训练。
- 结果/证据
- 它值得收录,因为它把 world modeling 融入 agent RL 训练,而不是额外 simulator 或推理时模块。
- 收录价值
- 按当前收录规则,它属于近期值得正式跟踪的可复用方法或系统模式;但作为新近预印本,后续仍需要代码、复现和真实部署结果来确认长期影响。
论文摘要
PaW通过为离策略强化学习的语言代理进行辅助世界模型监督,实现策略和转换预测的联合训练,而无需改变推理时的行为。
英文原文
PaW adds auxiliary world-model supervision to on-policy RL rollouts for language agents, co-training policy and transition prediction without changing inference-time behavior.