Observing and Controlling Features in Vision-Language-Action Models

可解释性与机制分析突破级有讲解视频

收录解读

这篇论文研究 Vision-Language-Action 模型内部特征是否既可观测又可控制。问题很具体：VLA 比普通 LLM 多了视觉输入、动作输出和混合头结构，LLM 里的机制解释结论不能直接搬过来。

作者提出 feature-observability 和 feature-controllability 两个概念，用线性读出和最小线性干预来识别、并在线调控表示空间中的特征。核心不在训练新模型，而在于证明可以通过轻量干预稳定地改变机器人行为。

它适合归到机制解释与机器人交叉主线。相比单纯可视化分析，这篇更进一步，展示了在闭环控制下对 VLA 内部特征进行定向操控的可行性，因此既有解释价值，也有实用控制价值。

它没有升到更高一级，因为目前主要证据仍来自特定 VLA 架构和仿真实验；影响很可能会持续，但还不到重塑整个 VLA 训练路线的程度。