VehicleMemBench: An Executable Benchmark for Multi-User Long-Term Memory in In-Vehicle Agents

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-03-25
arXiv: 2603.23840

收录解读

车载 agent 如果要从助手变成长时陪伴系统，真正难的不是回答单轮问题，而是持续建模多用户偏好、处理家庭成员间的冲突，并在习惯变化后做可靠决策。现有 long-term memory benchmark 大多还是单用户、静态 QA 或弱交互环境，因此很难覆盖真实 in-vehicle agents 面临的 preference evolution 和 tool-interactive 决策压力。VehicleMemBench 明确补的是这个场景缺口。

它的核心价值在于可执行环境和客观评测接口。VehicleMemBench 不是只给一堆对话样本，而是把 memory 与 tool use 放进一个可执行车载模拟环境里，通过动作后的环境状态是否达成目标来评价模型，而不是依赖 LLM judge 或人工主观打分。基准里包含 23 个工具模块、每个样本超过 80 条历史记忆事件，因此它实际测到的是 memory retrieval、冲突解析和长时偏好更新后的真实决策质量。

这篇工作值得正式收录，因为它把 agent memory 评测从静态问答推进到 multi-user、long-horizon、executable benchmark，这正好命中仓库在 agent memory 和 evaluation 上的主线。尤其是“多用户偏好演化 + 工具交互 + 客观环境验收”这一组合，很可能会成为后续 memory systems 更有说服力的测试方式。

它目前仍是 breakthrough，而不是更高一级，因为场景仍然聚焦车载 domain，虽然机制上有外溢，但是否能上升为更广泛 multi-user memory benchmark 范式还需要更多跨领域复用。它已经很有评测价值，但还不是所有长期记忆 agent 的统一基准。

链接

论文链接