PRIMT: Preference-based Reinforcement Learning with Multimodal Feedback and Trajectory Synthesis from Foundation Models

强化学习突破级暂无讲解视频

发表时间: 2025-09-19
arXiv: 2509.15607

收录解读

## 问题与背景问题与背景：偏好强化学习在机器人里很有潜力，但长期受制于人类反馈成本高、早期轨迹难比较、credit assignment 弱等问题。尤其在复杂操作和 locomotion 任务里，单一模态反馈常常不稳定。

## 方法/新意方法/新意：PRIMT 利用 foundation models 生成 multimodal synthetic feedback，并结合 foresight / hindsight trajectory synthesis 改善查询歧义和 credit assignment。它不是只换奖励模型，而是把偏好学习的数据构造和反馈源都做了升级。

## 意义/放在仓库中的位置意义/放在仓库中的位置：它适合放在 agentic RL / robotics 主线，代表“用 foundation models 教机器人偏好学习”的路线。和 KARL、MOSAIC、WoVR 这类条目一起看，会很清楚地看到 agent training 正从纯人工标注走向合成反馈。

## 局限/为何不更高局限/为何不更高：它是很扎实的 RL/robotics 方法论文，但仍属于赛道内改进，不是重排整条智能体训练范式的工作，因此先归为突破性。

链接

论文链接