视觉系统解码新进展：NUS MNNDL成员文章被计算机视觉顶会CVPR接收

文摘科学 2023-03-03 22:09 新加坡

✦写在前面✦

我们与香港中文大学、斯坦福大学共同提出了 MinD-Vis，通过预训练的一个mask modeling和latent diffusion model，能从fMRI数据中直接解码出人类视觉刺激。

MinD-Vis能够从fMRI数据中解码大脑活动并重建图像，这些图像不仅有合理的细节，而且还准确地呈现了图像的语义和特征（如纹理和形状）。

论文题目：
Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked Modeling for Vision Decoding

作者：

Zijiao Chen¹*, Jiaxin Qing²*, Tiange Xiang³, Wan Lin Yue¹, Juan Helen Zhou¹

1. National University of Singapore, Center for Sleep and Cognition, Centre for Translational Magnetic Resonance Research

2. The Chinese University of Hong Kong, Department of Information Engineering

3. Standford University, Vision and Learning Lab

*Equal Contribution

论文链接：
http://arxiv.org/abs/2211.06956

代码链接：
https://github.com/hzlab/2022_Chen_Brain_Decoding

项目链接：

https://mind-vis.github.io/

PART.01 Introduction

“所见即所思”。

人类的感知和先前知识在大脑中有着密切的关联，我们对世界的感知不仅受到客观刺激的影响，也受到我们的经验影响，这些影响形成了复杂的大脑活动。理解这些大脑活动并解码信息是认知神经科学的重要目标之一，其中解码视觉信息是一个具有挑战性的问题。

功能性磁共振成像(fMRI)是一种常用的非侵入性且有效的方法，可以用于恢复视觉信息，如图像类别。

MinD-Vis的目的是探索使用深度学习模型直接从fMRI数据中解码视觉刺激的可能性。

PART.02 GAP

以往的方法直接从fMRI数据中解码复杂神经活动时，存在缺乏{fMRI-图像}配对和有效的生物学指导的问题，所以重建的图像通常模糊且在语义上无意义。因此，有效地学习fMRI表征是一项重要的挑战，这有助于建立大脑活动与视觉刺激之间的联系。

此外，个体变异性使问题更加复杂，我们需要从大型数据集中学习表征，并且放宽从fMRI生成条件合成的限制。

因此，我们认为使用自监督学习(Self-supervised learning with pre-text task)加上大规模生成模型可以使模型在相对较小的数据集上微调后具有上下文知识和令人惊叹的生成能力。

在上述分析的驱动下，我们提出了MinD-Vis：人类视觉解码的掩码信号建模与双条件潜在扩散模型。我们的贡献如下：

我们提出了Sparse Coded-Masked Brain Modeling（SC-MBM），作为受生物学指导的有效视觉解码大脑特征预训练学习器。
通过增加双条件潜在扩散模型（DC-LDM），我们在相同语义下强化了解码一致性，同时允许生成方差。
通过将 SC-MBM 的表示能力与 DC-LDM 的生成能力相结合，MinD-Vis 生成的图像在保留语义信息的同时更加合理，比先前的方法更好。
我们在多个数据集上进行了定量和定性测试。

与过往的方法进行对比 – 生成质量

与过往的方法进行对比 – 评判指标的定量对比

PART.03 Motivation

由于收集{fMRI-图像}配对非常昂贵且耗时，这个任务一直存在缺乏数据标注的问题。另外，每个数据集、每个个体的数据都会存在一定的域偏移。

而在这个任务里，我们希望建立大脑活动与视觉刺激之间的联系，并由此生成相对应的图像信息。

在这里，我们使用了自监督学习(Self-supervised learning with pre-text task)加上大规模生成模型。我们认为这可以使模型在相对较小的数据集上微调后具有上下文知识和令人惊叹的生成能力。

PART.04 Method

这一段我们将详细介绍我们的MinD-Vis框架，并介绍我们设计的理由和思路。

fMRI数据有这些特点和问题：

fMRI用3D体素（voxel）来测量大脑血氧水平相关（BOLD）的变化，来观测大脑活动变化。邻近体素的幅度通常相似，表明fMRI数据中存在空间冗余。
通常当我们计算fMRI数据时，我们会提取Region of Interest (ROI)并把数据打成1D vector。在这个任务里，我们只提取大脑visual cortex的信号，因此，我们体素的数量（约为4000）远比图像里像素点的数量（256*256*3）少，这样的数据在纬度方面和通常处理图像数据的方式存在相当的差距。
由于个体差异，实验设计的差异，脑信号的复杂程度，每个数据集、每个个体的数据都会存在一定的域偏移。
对于一个固定的视觉刺激，我们希望模型还原的图像在语义上一致；但由于个体差异，每个人看到这个视觉刺激的反应不同，我们又希望模型有一定的方差和灵活性。

为了解决这些问题，我们提出了 MinD-Vis 方法。

该方法包含两个阶段：

我们使用大规模的fMRI数据集来训练Masked Autoencoder，来学习fMRI representation。
我们将预训练好的fMRI encoder与LDM通过cross-attention conditioning和time-step conditioning相集成进行double conditioning，以进行条件合成。在这个阶段中，我们使用配对的{fMRI, Image}来共同finetune LDM中的cross attention head。我们将在这里详细介绍这两步。

MinD-Vis 流程图

（A） Sparse-Coded Masked Brain Modeling (SC-MBM) (流程图图左)

由于fMRI空间信息冗余，即使大部分被遮盖，fMRI数据仍然可以恢复。因此，在MinD-Vis的第一阶段，为了节省计算时间，我们遮盖了大部分fMRI数据。我们使用了类似于Masked Autoencoder的做法：

将fMRI voxels划分成patches
使用有等于patches大小的步长的1D卷积层转换成embedding
把剩余的fMRI patch加入positional embedding后作为vision transformer的输入
解码得到重建的数据
计算重建的数据与原数据的loss
通过反向传播优化模型，使得重建的数据尽可能地与原数据相似
重复2-6的步骤，训练出最终模型

SC-MBM能有效还原被掩盖的fMRI信息

我们的设计和Masked Autoencoder

有什么区别

当mask modelling应用于自然图像时，模型一般使用等于或略大于1的embedding-to-patch-size ratio。
在我们的任务中，我们使用了比较大的embedding-to-patch-size ratio，这能显著提高了我们的信息容量，为fMRI创建了大的表征空间，这种设计也对应于大脑中信息的稀疏编码。
使用稀疏编码在脑中学习视觉刺激表示的生物学基础

稀疏编码曾被提出来作为感觉信息表征的一种策略。研究表明，视觉刺激在视觉皮层中被稀疏编码，这样可以增加信息传输效率并减少脑中的冗余。使用fMRI可以从视觉皮层收集的少量数据中重建自然场景的视觉内容。稀疏编码可能是计算机视觉中编码的有效方式。文章中提到了SC-MBM方法，它将fMRI数据分成小块来引入局部性约束，然后将每个小块稀疏编码成高维向量空间，这样可以作为生物学上有效且高效的脑特征学习器，用来进行视觉编码解码。

SC-MBM的消融实验

（B）Double-Conditioned LDM (DC-LDM)

(流程图右)

在Stage A中进行了large-scale context learning之后，fMRI encoder可以将fMRI数据转换为具有局部性约束的sparse representation。在这里，我们将解码任务表述为条件生成问题，并使用预训练的LDM来解决此问题。

LDM 在图像的潜在空间上操作，fMRI 数据 z 作为条件信息，目标是学习通过反向扩散过程形成图像。
在图像生成任务中，多样性和一致性是相反的目标，fMRI到图像更依赖于生成一致性。
为了确保生成一致性，我们将cross attention conditioning和 time step conditioning 相结合，并在 UNet 的中间层使用带有 time embedding 的条件机制。
我们进一步把优化目标式重新表述为双重调节交替式。

我们通过多次解码不同随机状态的图像证明了我们方法的稳定性。

微调

在fMRI encoder通过SC-MBM预训练后，它与预先训练的LDM通过double conditioning整合在一起。在这里，我们

将encoder的输出使用卷积层合并到 latent dimension中
联合优化fMRI encoder、cross attention heads和projection heads，其他部分固定
微调cross attention heads是连接pre-trained conditioning space 和 fMRI latent space的关键
我们在通过fMRI图像对端到端进行微调的过程中，通过large-capacity fMRI representations将学到fMRI和图像特征之间更清晰的联系

DC-LDM的消融实验

额外细节

意外的是，我们发现我们可以解码出一些不在在ground truth图像里并不实际存在，但与图片内容十分相关的细节。比如说，当图片是自然风景时，我们解码出了河流和蓝天；在提供房屋时，我们解码出了相似的室内装饰。这部分原因我们会在后面的研究里继续拓展。

喜闻乐见的翻车集锦

虽然MinD-Vis在图像生成方面有了一定的进步，但我们也必须承认它并不是万能的。我们认为，在训练样本数量较少的情况下，刺激的解码难度会有所不同。例如，GOD数据集包含的动物训练样本比服装多。这意味着一个语义上类似于“毛茸茸”的词更可能被解码为动物而不是服装，如上图所示，其中一只袜子被解码为一只羊。

PART.05 Method

数据集

在这里，我们用了三个公开数据集。

第一阶段的预训练：我们用了Human Connectome Project，它提供136,000个fMRI数据片段，没有图像，只有fMRI。
微调Encoder和第二阶段的生成模型：我们用了Generic Object Decoding Dataset (GOD)和Brain, Object, Landscape Dataset (BOLD5000)数据集。这两个数据集分别提供了1250张和5254张{fMRI, Image} 配对，其中，我们分别取了50张和113张作为测试集。

模型结构

我们模型结构的设计（ViT和扩散模型）主要是参照过去的文献。模型参数细节请参照正文。同样地，我们也采用了一种不对称的体系结构：编码器旨在学习有意义的fMRI表示，而解码器试图预测被遮盖的块。因此，我们遵循以前的设计，使解码器更小，预训练后我们将其舍弃。

评判指标

跟过往的文献一样，我们使用了n-way top-1 和 top-5 分类准确率来评估结果的语义正确性。这是一种在多次试验中，通过计算 n-1 个随机选择的类别和正确类别的 top-1 和 top-5 分类准确率来评估结果的方法。与先前的方法不同，我们在这里采用了更直接、可复制的评估方法，即使用预训练的 ImageNet1K 分类器来判断生成图像的语义正确性，而不是使用handcrafted features。此外，我们还使用了 Fréchet inception distance（FID）作为参考来评估生成图像的质量。但是，由于数据集中图像数量有限，因此 FID可能无法完美地评估图像分布。

效果

我们的实验是在个体水平上进行的，即模型在同一个个体上进行训练和测试。为了与之前的文献进行比较，我们在这里报告了GOD数据集第三位被试的结果，并在附录中列出了其他被试的结果。

PART.06 写在最后

文章的介绍到这里就结束啦，通过这个项目，我们展示了通过fMRI还原人脑视觉信息的可行性。然而，我们还需要解决其他一些问题，例如如何更好地处理个体之间的差异性，如何减少噪声和干扰对解码的影响，如何将fMRI解码与其他神经科学技术结合起来，以更全面地理解人类大脑的机制和功能。同时，我们也需要更好地了解和尊重人类大脑和个体隐私方面的伦理和法律问题。此外，我们还需要探索更广泛的应用场景，例如医学和人机交互等领域，以便将这项技术转化为实际应用。

我们相信，在大规模数据集 + 大模型 + 算力的加持下，fMRI解码将会有更加广泛和深远的影响，推动认知神经科学和人工智能领域的发展。

如果您对神经科学、脑图像、精神疾病相关的研究感兴趣，欢迎关注我们的 Twitter 和网站！Twitter：

https://twitter.com/mnndl_lab

网站：

https://neuroimaginglab.org/

NUS MNNDL Lab

新加坡国立大学 Multimodal Neuroimaging in Neuropsychiatric Disorders Laboratory 实验室。http://neuroimaginglab.org