神经科学与认知科学
突破级
暂无讲解视频
核心要点
- 问题/背景
- 这篇论文把 fMRI 视觉解码从重建图片/生成 caption 推向可控的视觉问答:模型需要从脑活动中恢复足够的语义信息来回答关于被试所见图片的问题。
- 方法/机制
- 方法基于 Brain Interaction Transformer,将脑活动解码为语言 token 并接入语言模型;同时提出 NSD-VQA,为每张图提供多类别、较密集的问题-答案对,以区分不同层级的视觉理解。
- 结果/证据
- 它值得收录,因为它不仅是一个脑解码模型,也是一个可复用 benchmark:用 VQA 方式评估哪些视觉/语义信息能从 fMRI 中可靠读出,对脑表征研究和多模态模型评估都有外溢价值。
- 收录价值
- 按当前收录规则,它属于脑-视觉-语言建模中的方法与评测接口;但当前仍受 NSD/fMRI 数据规模、被试数量和离线解码条件限制。
论文摘要
Brain-IT-VQA 解码了从观看图像的fMRI响应中提取的语言标记,并将它们与语言模型结合用于视觉问答,并引入了NSD-VQA,这是一个用于评估从脑活动解码出的视觉和语义信息的可控基准。
英文原文
Brain-IT-VQA decodes language tokens from fMRI responses to viewed images, combines them with a language model for visual question answering, and introduces NSD-VQA, a controlled benchmark for evaluating visual and semantic information decoded from brain activity.