智能体与自主科学
突破级
暂无讲解视频
收录解读
这篇论文把 agent 评估从“有没有完成任务”推进到“是否按计划完成任务”。在软件修复 agent 中,如果模型绕过计划或依赖 benchmark 记忆,单纯成功率无法说明战略推理是否可靠。
作者分析 16,991 条 SWE-agent 轨迹,比较不同模型和计划变体,研究无计划、标准计划、差计划和周期提醒对 plan compliance 与任务成功的影响。
按本库标准,它值得正式收录,因为 plan following 是 agent 可靠性、可审计性和执行治理的核心观测指标,论文提供了可复用诊断维度。
局限是场景集中在 programming agents 和 SWE-bench,计划遵循在浏览器、机器人、工具调用等其他执行环境中还需验证。