多模态基础模型 突破级 暂无讲解视频
发表时间
2026-04-15
arXiv
2604.13418

收录解读

问题与背景:真实 web search agent 面对的不是干净文本证据,而是自然语言查询、视频/音频/图像/网页混合证据、冲突来源和多跳检索路径。现有检索增强评测很少同时覆盖这些困难。

方法与新意:MERRIN 用人类标注的查询和证据链评估 agent 是否能判断需要哪些模态、检索对应证据,并在噪声网页环境中完成多跳推理。它还比较 no-search、native-search 和 agentic-search 三种检索设置。

收录意义:这篇对 multimodal agents 和 search-augmented agents 有持久评测价值,因为它把检索问题从文本 RAG 扩展到复杂多模态证据选择与冲突处理。它能帮助区分“会搜索”与“会找对证据并整合”。

局限:benchmark 构造和 human evidence 标注规模决定了覆盖边界;同时 web 环境随时间变化,长期可复现性需要稳定快照和评测基础设施支撑。

链接