Does Object Binding Naturally Emerge in Large Pretrained Vision Transformers?

可解释性与机制分析突破级有讲解视频

发表时间: 2025-10-28
arXiv: 2510.24709

收录解读

问题与背景这篇论文问的是一个经典认知科学问题：对象绑定是否会在大规模预训练 ViT 中自然涌现。过去很多工作认为对象级绑定需要显式 object-centric 机制，而纯连接主义的 ViT 可能只能学到局部特征和注意力热区，缺少真正的绑定能力。

方法与新意作者提出了一个可操作的表征量 `IsSameObject`，并用 quadratic similarity probe 去解码两个 patch 是否属于同一对象。结果显示，在 DINO、CLIP 和监督式 ViT 中，这个信号能被高精度解码；而在 MAE 中明显更弱。作者还进一步做了子空间分析和消融，论证这一对象绑定信号不仅存在，而且参与了下游任务。

意义与仓库位置这篇适合放在机制解释与认知交叉主线。它的重要性不只是对 ViT 做 probe，而是把“对象绑定”这个认知科学问题转成了可测、可干预的现代模型机制问题，说明某种 symbolic grouping 能在 connectionist vision model 里自然涌现。

局限与为什么不更高一级这篇的证据主要集中在表征解码与消融分析，还不是一个直接改变视觉模型训练范式的工作。它非常适合做机制和认知桥接，但还没有到路线重排级别，所以我把它放在突破性。

解读视频

B 站 YouTube

链接

论文链接