AI读脑进展:NUS MNNDL成员文章被NeurIPS接收为口头报告

文摘   科学   2023-12-04 17:31   新加坡  

这篇研究提出了一个名叫MinD-Video的AI模型,它可以根据收集的大脑fMRI数据重建任意帧速率的高质量视频。

不论是被试者在驾驶旅途中所捕捉的沿途风光,还是水中游动的鱼儿和草原上奔跑的马儿,MinD-Video都能够一一重建。

这一突破性的研究成果来自新加坡国立大学与香港中文大学的共同努力。



那么,这一切是如何实现的呢?

一直以来,从大脑活动中重建人类视觉信息,尤其是利用功能磁共振成像(fMRI)这一非侵入式技术,都受到学术界的广泛关注。
因为这样的研究有助于我们理解认知过程。但以往的研究多聚焦于静态图像的重建,而将这一过程以高清视频形式展现出来的尝试还相对有限。

与重建静态图像不同的是,我们的视觉体验是连续和多样化的,这增加了重建工作的复杂性。功能磁共振成像技术测量的是血氧水平依赖(BOLD)信号,并且每隔几秒钟捕捉一次大脑活动的快照。而标准视频每秒包含约30帧,要重建一个2秒的视频,就需要至少60帧的信息。因此,挑战在于如何解码fMRI数据,并以远高于其时间分辨率的帧率(FPS)重建视频。


为了解决这一难题,我们的研究团队提出了MinD-Video方法,该方法主要分为两大模块:训练模块和微调模块。在训练阶段,团队首先利用无监督学习和脑建模技术(MBM)来学习通用的视觉fMRI特征。然后,使用多模态标注数据集提取与语义相关的特征,并在对比语言-图像预训练(CLIP)空间中对fMRI编码器进行训练。微调阶段,则是通过与专为fMRI视频生成定制的Stable Diffusion模型合作来优化特征。


与以往的研究相比,我们的MinD-Video方法在生成图片和视频的质量上具有明显优势,能够连贯地呈现高清、有意义的视觉内容。
研究团队包括新加坡国立大学MNNDL_Lab的博士生Zijiao Chen和香港中文大学信息工程系的Jiaxin Qing,以及新加坡国立大学副教授Juan Helen ZHOU。

本篇文章的成果不仅展现了从fMRI数据到高清视频重建的巨大潜力,也被NeurIPS 2023接收为Oral presentation(口头报告),其接受率仅为0.6%(77/12343),文章链接为:https://arxiv.org/abs/2305.11675


Reference:

Chen, Zijiao, Jiaxin Qing, and Juan Helen Zhou. "Cinematic Mindscapes: High-quality Video Reconstruction from Brain Activity." arXiv preprint arXiv:2305.11675 (2023).
作者简介

文章的共同第一作者是来自MNNDLZijiao Chen女士,她是周涓副教授的博士研究生。目前,她在NUS MNNDL从事脑解码的研究工作

如果您对神经科学、脑图像、精神疾病相关的研究感兴趣,欢迎关注我们的 Twitter 和网站!

Twitter:https://twitter.com/mnndl_lab

网站:https://neuroimaginglab.org/

记忆

NUS MNNDL Lab
新加坡国立大学 Multimodal Neuroimaging in Neuropsychiatric Disorders Laboratory 实验室。http://neuroimaginglab.org