收录解读
长程机械臂操作里,真正难的常常不是当前一帧该怎么抓,而是当前观测本身已经不再是 Markov 的:遮挡、状态变化和历史交互会让相同视觉输入对应不同决策。很多 embodied memory 系统用语义压缩摘要和相似度检索来解决,但这样很容易把真正决定动作的细粒度几何线索抹掉。Chameleon 针对的正是这种 manipulation memory 的错位问题。
它提出的思路不是继续把经验压成文本或粗语义,而是写入 geometry-grounded multimodal tokens,并用可微 memory stack 做 goal-directed recall。也就是说,系统保留的是足以区分相似场景但不同历史的感知上下文,而不是只保留语义相似性。论文还配套给出 Camo-Dataset,在 episodic recall、spatial tracking 和 sequential manipulation 等真实 UR5e 任务上系统验证。
这篇工作值得正式收录,因为它把 agent memory 在 embodied 场景里的关键问题说清楚了:对机器人来说,memory 的检索单位不能只靠语义相似,而要保留可行动作决策所需的几何与时序差异。这种设计对长期 manipulation、世界模型记忆接口和 real-robot episodic control 都有明显方法外溢。
它目前仍是 breakthrough,而不是更高一级,因为证据主要集中在一套机械臂平台和一类 episodic manipulation 场景,离更通用的 embodied memory blueprint 还有距离。它已经是强方法条目,但还需要跨机器人形态和更开放任务的验证。