LLM Reasoning as Trajectories: Step-Specific Representation Geometry and Correctness Signals

可解释性与机制分析突破级暂无讲解视频

发表时间: 2026-04-07
arXiv: 2604.05655

收录解读

虽然思维链推理已经成为 LLM 的核心能力之一，但我们对模型内部究竟如何跨步骤组织和纠偏，仍主要停留在静态表示或单点探针层面。真正缺的不是又一个“某层有什么信号”的观察，而是对整段推理过程作为动态轨迹的描述。

这篇工作把多步推理明确刻画成表示空间中的结构化轨迹，发现不同推理步骤会穿过功能有序的子空间，而且正确与错误解答在后期轨迹上会系统分叉。基于这一点，作者进一步做出了中期正确性预测器，以及只在轨迹偏离时触发的 trajectory-based steering，用于纠错和控制推理长度。

它值得正式收录，因为它把 interpretability、预测和干预接到了同一个几何接口上：不仅能解释 LLM 在推理时“走到了哪里”，还能据此判断是否即将出错，并在推理期做局部引导。这对 reasoning control、test-time intervention 和 mechanistic analysis 都有明确复用价值。

它暂时不升到更高一级，原因在于当前实验主要集中在数学任务和有限模型家族上，而且“理想轨迹”这一干预基准在更开放任务里是否稳健还需要继续验证。

链接

论文链接