智能体与自主科学
突破级
有讲解视频
收录解读
问题与背景:当前大多数 AI 系统仍然是被动响应式的,只有在用户显式发出请求后才开始工作。论文关注的核心问题是:AI 能否从长期、多模态的人机交互历史中学习,在用户行动发生之前预测其下一步操作,从而把人机协作从“响应”推进到“预判”。
方法/新意:作者首先形式化了 next action prediction(NAP)任务,并构建了用于私有基础设施标注的 NAPsack 管线,在一个月、20 名用户、1800 小时的真实手机使用中标注出 36 万条行为动作。模型层面提出 LongNAP,将参数化学习与 in-context retrieval 结合起来,并用 policy gradient 优化生成用户特定的 reasoning traces,再检索和复用历史 traces 来预测未来动作。
意义/放在仓库中的位置:这篇工作适合放在 agent / HCI / proactive assistance 主线。它的重要性不只是一个新 benchmark,而是把“下一步动作预测”建立成可研究任务,同时展示了长期交互历史、私有行为数据标注和基于推理轨迹的 anticipatory modeling 可以组成一条新的个人代理路线。对长期助手、桌面/手机代理和个性化 AI 都有明显外溢性。
局限/为何不再升一级:论文目前仍主要停留在 next-action prediction 这一新任务设定和小规模真实用户数据上,虽然结果有说服力,但还没有进入大规模部署或更广泛任务闭环,也尚未证明这种 anticipatory modeling 会成为主流 agent 设计范式,因此先定为突破性。