智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-05-09
arXiv
2605.08703

收录解读

RewardHarness 的关键思想是把 reward modeling 从训练新权重转成 agentic context evolution:系统维护并迭代一组工具和技能,用它们构造偏好判断链。

它用少量偏好 demonstrations 让 Orchestrator 选择工具、分析成功失败并改进工具/技能库,从而让 frozen Sub-Agent 更接近人类偏好。

它值得正式收录,因为这提供了一种 self-evolving post-training pattern:能力提升不一定来自参数更新,也可以来自可审计的工具与技能库演化。

它没有更高,是因为当前场景集中在图像编辑 reward;能否扩展到更广泛 agent 任务、复杂偏好和长期稳定库管理仍需验证。

链接