LifeSim: Long-Horizon User Life Simulator for Personalized Assistant Evaluation

智能体与自主科学突破级暂无讲解视频

收录解读

LifeSim 关注长期个性化助手的评测缺口：真实用户需求受时间、地点、天气、偏好、认知状态和生活轨迹共同影响，而现有 benchmark 多是短程静态任务。

它用 BDI 认知模型生成用户 belief、desire、intention，并结合物理环境产生连贯 life trajectories，再据此构造 LifeSim-Eval。评测覆盖 8 个生活域、1200 个场景，重点测试显式意图、隐式意图、用户画像恢复和长期偏好建模。

收录价值在于它把 personalization evaluation 从“记住用户资料”推进到“在长期生活状态中推断隐式意图”。这对 agent memory、personal assistant、教育/健康/生活工作流都有直接参考价值。

主要限制是 simulator 的行为真实性仍取决于 BDI 建模和合成数据分布；它是长期个性化评测的重要推进，但还不能完全替代真实用户纵向部署数据。