智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-04-15
arXiv
2604.11978

收录解读

这篇论文聚焦长程 agent 失败诊断,而不是只给一个新成功率榜单。它的问题定义很重要:短中程任务表现好,并不能说明 agent 能稳定处理长串互相依赖的行动。

HORIZON 收集 3,100+ 条跨领域 agent 轨迹,用 trajectory-grounded judge 做失败归因,并用人工标注验证一致性。它试图把“长程任务失败”拆成可比较、可诊断的行为模式。

按本库标准,它属于 agent evaluation / observability 方向的正式收录项,因为它提供的是跨域长程失败诊断接口,对后续 agent 架构和评测设计都有复用价值。

局限是 LLM-as-judge 仍有偏差,且 HORIZON 的任务构造是否覆盖真实长期工作流仍需要社区扩展。

链接