The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

智能体与自主科学突破级暂无讲解视频

收录解读

这篇论文聚焦长程 agent 失败诊断，而不是只给一个新成功率榜单。它的问题定义很重要：短中程任务表现好，并不能说明 agent 能稳定处理长串互相依赖的行动。

HORIZON 收集 3,100+ 条跨领域 agent 轨迹，用 trajectory-grounded judge 做失败归因，并用人工标注验证一致性。它试图把“长程任务失败”拆成可比较、可诊断的行为模式。

按本库标准，它属于 agent evaluation / observability 方向的正式收录项，因为它提供的是跨域长程失败诊断接口，对后续 agent 架构和评测设计都有复用价值。

局限是 LLM-as-judge 仍有偏差，且 HORIZON 的任务构造是否覆盖真实长期工作流仍需要社区扩展。