HINT-SD: Targeted Hindsight Self-Distillation for Long-Horizon Agents

智能体与自主科学突破级暂无讲解视频

收录解读

HINT-SD 解决 long-horizon LLM agents 的训练稀疏性问题：最终奖励只告诉任务是否成功，却不说明哪些中间动作导致失败，以及应如何修正。

相比每一轮都生成反馈或固定位置蒸馏，HINT-SD 用完整轨迹 hindsight 选择 failure-relevant actions，只在相关 action spans 上进行 feedback-conditioned distillation。

在 BFCL v3 和 AppWorld 上，该方法比 dense per-turn feedback baseline 有更高收益，同时降低训练步骤时间，说明“选择在哪里蒸馏”对长程 agent 训练很关键。

它值得正式收录，因为它提供了 long-horizon agent training 的 targeted credit/distillation primitive，可与 RL、工具使用和轨迹诊断系统结合。