Large Vision-Language Models Get Lost in Attention

多模态基础模型突破级暂无讲解视频

收录解读

这篇论文关注大视觉语言模型的一个基础可靠性问题：模型表面上能处理图文输入，但注意力机制可能在复杂图像、干扰区域或语言提示下偏离真正相关证据。

作者围绕 attention loss 设计系统化诊断，分析 LVLM 在视觉 grounding、跨模态对齐和推理时如何被无关区域、局部显著性或提示结构牵引。

论文配套代码，有助于复现实验和扩展到不同 VLM；它提供的不是单一任务分数，而是面向多模态模型内部注意力可靠性的诊断接口。

它值得正式收录，因为 VLM attention/grounding 失配会直接影响多模态 reasoning、agent perception、GUI/robotics 输入理解和安全评测，是高溢出的 failure-analysis primitive。