软件工程与编程智能体 突破级 暂无讲解视频
发表时间
2026-06-04
arXiv
2606.05922

核心要点

问题/背景
这篇 arXiv 论文提出 Retrospective Harness Optimization,把 agent 的长期改进对象从模型参数转向 harness:skills、tools、workflows、CLAUDE.md/AGENTS.md 这类持久运行配置。
方法/机制
RHO 的关键是不依赖 ground-truth validation set。它从历史轨迹中选出困难且多样的 coreset,重新并行求解,利用 self-validation 和 self-consistency 形成无标签诊断信号。
结果/证据
随后系统生成候选 harness edits,并通过 agent 自己的 pairwise self-preference 选择最有效更新;项目还给出 Claude Code workflow 和 Codex CLI retrospection 脚本。
收录价值
它值得正式收录,因为它把 agent memory、skill/tool evolution、历史轨迹挖掘和自偏好优化合成了一个可复用的运行时自改进模式,直接贴合仓库的 agent capability extension 方向。
完整收录解读

这篇 arXiv 论文提出 Retrospective Harness Optimization,把 agent 的长期改进对象从模型参数转向 harness:skills、tools、workflows、CLAUDE.md/AGENTS.md 这类持久运行配置。

RHO 的关键是不依赖 ground-truth validation set。它从历史轨迹中选出困难且多样的 coreset,重新并行求解,利用 self-validation 和 self-consistency 形成无标签诊断信号。

随后系统生成候选 harness edits,并通过 agent 自己的 pairwise self-preference 选择最有效更新;项目还给出 Claude Code workflow 和 Codex CLI retrospection 脚本。

它值得正式收录,因为它把 agent memory、skill/tool evolution、历史轨迹挖掘和自偏好优化合成了一个可复用的运行时自改进模式,直接贴合仓库的 agent capability extension 方向。

原始摘要与中文对照

中文对照翻译

AI智能体依赖于技能、工具和工作流程的工具集来解决复杂问题,但优化该工具集通常需要带标签的验证集。回溯式工具集优化 (RHO) 转而仅使用过去的无标签轨迹:它选择一个多样化的挑战性任务核心集,并行地重新解决这些任务,推导出自我验证和自我一致性信号,提出工具集修改建议,并选择智能体自身成对自我偏好所青睐的修改。作者报告称,一轮优化将SWE-Bench Pro的通过率从59%提高到78%,无需外部评分,并在Terminal-Bench 2和GAIA-2上取得了额外收益。

原始摘要

AI agents rely on a harness of skills, tools, and workflows to solve complex problems, but optimizing that harness usually requires labeled validation sets. Retrospective Harness Optimization (RHO) instead uses only past unlabeled trajectories: it selects a diverse coreset of challenging tasks, re-solves them in parallel, derives self-validation and self-consistency signals, proposes harness edits, and chooses the edit preferred by the agent's own pairwise self-preference. The authors report that one optimization round raises SWE-Bench Pro pass rate from 59% to 78% without external grading, with additional gains on Terminal-Bench 2 and GAIA-2.

相关论文

链接