智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-05-18
arXiv
2605.17873

收录解读

HINT-SD 解决 long-horizon LLM agents 的训练稀疏性问题:最终奖励只告诉任务是否成功,却不说明哪些中间动作导致失败,以及应如何修正。

相比每一轮都生成反馈或固定位置蒸馏,HINT-SD 用完整轨迹 hindsight 选择 failure-relevant actions,只在相关 action spans 上进行 feedback-conditioned distillation。

在 BFCL v3 和 AppWorld 上,该方法比 dense per-turn feedback baseline 有更高收益,同时降低训练步骤时间,说明“选择在哪里蒸馏”对长程 agent 训练很关键。

它值得正式收录,因为它提供了 long-horizon agent training 的 targeted credit/distillation primitive,可与 RL、工具使用和轨迹诊断系统结合。

链接