可解释性与机制分析 突破级 暂无讲解视频
发表时间
2026-04-07
arXiv
2604.05655

收录解读

虽然思维链推理已经成为 LLM 的核心能力之一,但我们对模型内部究竟如何跨步骤组织和纠偏,仍主要停留在静态表示或单点探针层面。真正缺的不是又一个“某层有什么信号”的观察,而是对整段推理过程作为动态轨迹的描述。

这篇工作把多步推理明确刻画成表示空间中的结构化轨迹,发现不同推理步骤会穿过功能有序的子空间,而且正确与错误解答在后期轨迹上会系统分叉。基于这一点,作者进一步做出了中期正确性预测器,以及只在轨迹偏离时触发的 trajectory-based steering,用于纠错和控制推理长度。

它值得正式收录,因为它把 interpretability、预测和干预接到了同一个几何接口上:不仅能解释 LLM 在推理时“走到了哪里”,还能据此判断是否即将出错,并在推理期做局部引导。这对 reasoning control、test-time intervention 和 mechanistic analysis 都有明确复用价值。

它暂时不升到更高一级,原因在于当前实验主要集中在数学任务和有限模型家族上,而且“理想轨迹”这一干预基准在更开放任务里是否稳健还需要继续验证。

链接