Learning Next Action Predictors from Human-Computer Interaction

智能体与自主科学突破级有讲解视频

发表时间: 2026-03-06
arXiv: 2603.05923

收录解读

问题与背景：当前大多数 AI 系统仍然是被动响应式的，只有在用户显式发出请求后才开始工作。论文关注的核心问题是：AI 能否从长期、多模态的人机交互历史中学习，在用户行动发生之前预测其下一步操作，从而把人机协作从“响应”推进到“预判”。

方法/新意：作者首先形式化了 next action prediction（NAP）任务，并构建了用于私有基础设施标注的 NAPsack 管线，在一个月、20 名用户、1800 小时的真实手机使用中标注出 36 万条行为动作。模型层面提出 LongNAP，将参数化学习与 in-context retrieval 结合起来，并用 policy gradient 优化生成用户特定的 reasoning traces，再检索和复用历史 traces 来预测未来动作。

意义/放在仓库中的位置：这篇工作适合放在 agent / HCI / proactive assistance 主线。它的重要性不只是一个新 benchmark，而是把“下一步动作预测”建立成可研究任务，同时展示了长期交互历史、私有行为数据标注和基于推理轨迹的 anticipatory modeling 可以组成一条新的个人代理路线。对长期助手、桌面/手机代理和个性化 AI 都有明显外溢性。

局限/为何不再升一级：论文目前仍主要停留在 next-action prediction 这一新任务设定和小规模真实用户数据上，虽然结果有说服力，但还没有进入大规模部署或更广泛任务闭环，也尚未证明这种 anticipatory modeling 会成为主流 agent 设计范式，因此先定为突破性。

解读视频

B 站 YouTube

链接

论文链接