RewardHarness: Self-Evolving Agentic Post-Training

智能体与自主科学突破级暂无讲解视频

收录解读

RewardHarness 的关键思想是把 reward modeling 从训练新权重转成 agentic context evolution：系统维护并迭代一组工具和技能，用它们构造偏好判断链。

它用少量偏好 demonstrations 让 Orchestrator 选择工具、分析成功失败并改进工具/技能库，从而让 frozen Sub-Agent 更接近人类偏好。

它值得正式收录，因为这提供了一种 self-evolving post-training pattern：能力提升不一定来自参数更新，也可以来自可审计的工具与技能库演化。

它没有更高，是因为当前场景集中在图像编辑 reward；能否扩展到更广泛 agent 任务、复杂偏好和长期稳定库管理仍需验证。