OCR-Memory: Optical Context Retrieval for Long-Horizon Agent Memory

智能体与自主科学突破级暂无讲解视频

收录解读

这篇工作的关键不是再做一个更聪明的 textual memory retriever，而是直接换了 memory substrate：把长历史轨迹编码成带视觉锚点的图像，用 locate-and-transcribe 的方式取回原文证据。

这种设计针对的是 agent memory 里一个很硬的系统约束：原始轨迹文本太长，summary 会丢证据，纯向量检索又容易把证据碎片化。OCR-Memory 通过视觉高密度承载 + 定位后转录，等于在 token budget 和 evidence fidelity 之间开了一个新接口。

它值得正式收录，因为这是 agent memory 的真正机制层创新，不是 benchmark 上的一个 retrieval hack。对长程 computer-use agent、workspace agent、甚至 multimodal episodic memory 都有直接外溢。

它没有更高，是因为当前证据仍主要来自 long-horizon agent benchmarks，跨更多真实交互环境和更复杂 memory workloads 的鲁棒性还需继续验证。