Towards Long-horizon Agentic Multimodal Search

多模态基础模型突破级暂无讲解视频

收录解读

LMM-Searcher 针对 long-horizon multimodal deep search 的核心瓶颈：文本和图像证据混在上下文里会快速膨胀，而直接压缩又会丢掉关键视觉信息。多模态 agent 需要一种可按需取回视觉证据的工作记忆机制。

论文提出 file-based visual representation，把视觉资产放到外部文件系统，用轻量 UID 留在上下文中，并提供 fetch-image 工具让 agent 按需加载图像。这个机制把视觉上下文从“全塞进 prompt”改成“可导航的外部工作区”。

它值得收录，是因为它把 agentic multimodal search 的状态管理问题具体化为文件化视觉记忆和渐进式主动感知接口。对 deep research、多模态 RAG、GUI/网页 agent 的证据管理都有复用价值。

局限在于它依赖工具调用策略和文件组织质量；对于需要连续视觉推理或视频级状态的任务，UID 文件机制还需要更强时序建模。