From Plan to Action: How Well Do Agents Follow the Plan?

智能体与自主科学突破级暂无讲解视频

收录解读

这篇论文把 agent 评估从“有没有完成任务”推进到“是否按计划完成任务”。在软件修复 agent 中，如果模型绕过计划或依赖 benchmark 记忆，单纯成功率无法说明战略推理是否可靠。

作者分析 16,991 条 SWE-agent 轨迹，比较不同模型和计划变体，研究无计划、标准计划、差计划和周期提醒对 plan compliance 与任务成功的影响。

按本库标准，它值得正式收录，因为 plan following 是 agent 可靠性、可审计性和执行治理的核心观测指标，论文提供了可复用诊断维度。

局限是场景集中在 programming agents 和 SWE-bench，计划遵循在浏览器、机器人、工具调用等其他执行环境中还需验证。