MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments

多模态基础模型突破级暂无讲解视频

收录解读

问题与背景：真实 web search agent 面对的不是干净文本证据，而是自然语言查询、视频/音频/图像/网页混合证据、冲突来源和多跳检索路径。现有检索增强评测很少同时覆盖这些困难。

方法与新意：MERRIN 用人类标注的查询和证据链评估 agent 是否能判断需要哪些模态、检索对应证据，并在噪声网页环境中完成多跳推理。它还比较 no-search、native-search 和 agentic-search 三种检索设置。

收录意义：这篇对 multimodal agents 和 search-augmented agents 有持久评测价值，因为它把检索问题从文本 RAG 扩展到复杂多模态证据选择与冲突处理。它能帮助区分“会搜索”与“会找对证据并整合”。

局限：benchmark 构造和 human evidence 标注规模决定了覆盖边界；同时 web 环境随时间变化，长期可复现性需要稳定快照和评测基础设施支撑。