智能体与自主科学
突破级
暂无讲解视频
收录解读
HINT-SD 解决 long-horizon LLM agents 的训练稀疏性问题:最终奖励只告诉任务是否成功,却不说明哪些中间动作导致失败,以及应如何修正。
相比每一轮都生成反馈或固定位置蒸馏,HINT-SD 用完整轨迹 hindsight 选择 failure-relevant actions,只在相关 action spans 上进行 feedback-conditioned distillation。
在 BFCL v3 和 AppWorld 上,该方法比 dense per-turn feedback baseline 有更高收益,同时降低训练步骤时间,说明“选择在哪里蒸馏”对长程 agent 训练很关键。
它值得正式收录,因为它提供了 long-horizon agent training 的 targeted credit/distillation primitive,可与 RL、工具使用和轨迹诊断系统结合。