神经科学与认知科学 突破级 暂无讲解视频
发表时间
2026-05-28
arXiv
2605.29850

核心要点

问题/背景
这篇论文把自然电影下的 whole-brain fMRI encoding 从单模态特征拼接推进到原生多模态 foundation model 表征,核心问题是多模态融合到底应该在模型内部完成,还是留给后端脑读出器。
方法/机制
MIRAGE 使用 Qwen-Omni 等多模态 backbone 抽取层级特征,再用可学习 cross-attention layer gating 聚合视觉、音频、文本和融合表征,最后经 transformer brain encoder 和 subject-specific head 预测皮层 parcel 响应。
结果/证据
它值得收录,因为它直接连接多模态基础模型、脑编码模型和可解释 NeuroAI:结果支持原生多模态融合比后验拼接更贴近大脑处理,并给出可检查的模态-层级-皮层映射。
收录价值
按当前收录规则,它属于神经感知反哺 AI 多模态编码的高价值方法论文;但作为近期 arXiv,长期影响仍取决于外部复现、数据集覆盖和对不同多模态 backbone 的稳健性。
完整收录解读

这篇论文把自然电影下的 whole-brain fMRI encoding 从单模态特征拼接推进到原生多模态 foundation model 表征,核心问题是多模态融合到底应该在模型内部完成,还是留给后端脑读出器。

MIRAGE 使用 Qwen-Omni 等多模态 backbone 抽取层级特征,再用可学习 cross-attention layer gating 聚合视觉、音频、文本和融合表征,最后经 transformer brain encoder 和 subject-specific head 预测皮层 parcel 响应。

它值得收录,因为它直接连接多模态基础模型、脑编码模型和可解释 NeuroAI:结果支持原生多模态融合比后验拼接更贴近大脑处理,并给出可检查的模态-层级-皮层映射。

按当前收录规则,它属于神经感知反哺 AI 多模态编码的高价值方法论文;但作为近期 arXiv,长期影响仍取决于外部复现、数据集覆盖和对不同多模态 backbone 的稳健性。

论文摘要

MIRAGE 是一种用于自然主义的听觉-视觉刺激的全脑 fMRI 编码框架,它使用一个全模态基础模型、自适应分层特征门控以及一个 Transformer 脑编码器来预测皮层反应并解释皮层特定模态的贡献。

英文原文

MIRAGE is a whole-brain fMRI encoding framework for naturalistic audiovisual stimuli that uses an omni-modal foundation model, adaptive layer-wise feature gating, and a transformer brain encoder to predict cortical responses and interpret modality-specific cortical contributions.

相关论文

链接