智能体与自主科学
突破级
暂无讲解视频
收录解读
这篇工作的关键不是再做一个更聪明的 textual memory retriever,而是直接换了 memory substrate:把长历史轨迹编码成带视觉锚点的图像,用 locate-and-transcribe 的方式取回原文证据。
这种设计针对的是 agent memory 里一个很硬的系统约束:原始轨迹文本太长,summary 会丢证据,纯向量检索又容易把证据碎片化。OCR-Memory 通过视觉高密度承载 + 定位后转录,等于在 token budget 和 evidence fidelity 之间开了一个新接口。
它值得正式收录,因为这是 agent memory 的真正机制层创新,不是 benchmark 上的一个 retrieval hack。对长程 computer-use agent、workspace agent、甚至 multimodal episodic memory 都有直接外溢。
它没有更高,是因为当前证据仍主要来自 long-horizon agent benchmarks,跨更多真实交互环境和更复杂 memory workloads 的鲁棒性还需继续验证。