智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-04-29
arXiv
2604.26622

收录解读

这篇工作的关键不是再做一个更聪明的 textual memory retriever,而是直接换了 memory substrate:把长历史轨迹编码成带视觉锚点的图像,用 locate-and-transcribe 的方式取回原文证据。

这种设计针对的是 agent memory 里一个很硬的系统约束:原始轨迹文本太长,summary 会丢证据,纯向量检索又容易把证据碎片化。OCR-Memory 通过视觉高密度承载 + 定位后转录,等于在 token budget 和 evidence fidelity 之间开了一个新接口。

它值得正式收录,因为这是 agent memory 的真正机制层创新,不是 benchmark 上的一个 retrieval hack。对长程 computer-use agent、workspace agent、甚至 multimodal episodic memory 都有直接外溢。

它没有更高,是因为当前证据仍主要来自 long-horizon agent benchmarks,跨更多真实交互环境和更复杂 memory workloads 的鲁棒性还需继续验证。

链接