智能体与自主科学
突破级
暂无讲解视频
收录解读
LifeSim 关注长期个性化助手的评测缺口:真实用户需求受时间、地点、天气、偏好、认知状态和生活轨迹共同影响,而现有 benchmark 多是短程静态任务。
它用 BDI 认知模型生成用户 belief、desire、intention,并结合物理环境产生连贯 life trajectories,再据此构造 LifeSim-Eval。评测覆盖 8 个生活域、1200 个场景,重点测试显式意图、隐式意图、用户画像恢复和长期偏好建模。
收录价值在于它把 personalization evaluation 从“记住用户资料”推进到“在长期生活状态中推断隐式意图”。这对 agent memory、personal assistant、教育/健康/生活工作流都有直接参考价值。
主要限制是 simulator 的行为真实性仍取决于 BDI 建模和合成数据分布;它是长期个性化评测的重要推进,但还不能完全替代真实用户纵向部署数据。