可解释性与机制分析
突破级
有讲解视频
收录解读
这篇论文研究 Vision-Language-Action 模型内部特征是否既可观测又可控制。问题很具体:VLA 比普通 LLM 多了视觉输入、动作输出和混合头结构,LLM 里的机制解释结论不能直接搬过来。
作者提出 feature-observability 和 feature-controllability 两个概念,用线性读出和最小线性干预来识别、并在线调控表示空间中的特征。核心不在训练新模型,而在于证明可以通过轻量干预稳定地改变机器人行为。
它适合归到机制解释与机器人交叉主线。相比单纯可视化分析,这篇更进一步,展示了在闭环控制下对 VLA 内部特征进行定向操控的可行性,因此既有解释价值,也有实用控制价值。
它没有升到更高一级,因为目前主要证据仍来自特定 VLA 架构和仿真实验;影响很可能会持续,但还不到重塑整个 VLA 训练路线的程度。