多模态基础模型
突破级
暂无讲解视频
收录解读
LMM-Searcher 针对 long-horizon multimodal deep search 的核心瓶颈:文本和图像证据混在上下文里会快速膨胀,而直接压缩又会丢掉关键视觉信息。多模态 agent 需要一种可按需取回视觉证据的工作记忆机制。
论文提出 file-based visual representation,把视觉资产放到外部文件系统,用轻量 UID 留在上下文中,并提供 fetch-image 工具让 agent 按需加载图像。这个机制把视觉上下文从“全塞进 prompt”改成“可导航的外部工作区”。
它值得收录,是因为它把 agentic multimodal search 的状态管理问题具体化为文件化视觉记忆和渐进式主动感知接口。对 deep research、多模态 RAG、GUI/网页 agent 的证据管理都有复用价值。
局限在于它依赖工具调用策略和文件组织质量;对于需要连续视觉推理或视频级状态的任务,UID 文件机制还需要更强时序建模。