NeurIPS 2024 Oral | NeuroClips：揭秘从脑信号重建高保真流畅视频

科技 2024-11-24 00:00 上海

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

转载自：机器之心

本篇论文的工作已被 NeurlPS（Conference on Neural Information Processing Systems）2024 会议接收为 Oral Presentation (64/15671=0.4%) 。本文主要作者来自同济大学苗夺谦，张奇团队，其余作者来自俄亥俄州州立大学、悉尼科技大学、中科院自动化所、北京安定医院。其中，第一作者龚子璇就读于同济大学计算机学院，研究方向涉及 fMRI 解码和多模态学习。

从大脑信号还原视觉刺激一直是神经科学和计算机科学研究人员们津津乐道的话题。然而，基于非侵入式大脑活动 fMRI（功能性磁共振成像）到视频的重建研究仍然有限，因为解码连续视觉刺激的时空感知是一项艰巨的挑战。为此，本文提出了一种名为 NeuroClips 的创新框架，用于从 fMRI 数据中解码高保真和流畅的视频。

论文题目：NeuroClips: Towards High-fidelity and Smooth fMRI-to-Video Reconstruction
论文链接：https://arxiv.org/abs/2410.19452
项目主页：https://github.com/gongzix/NeuroClips

从 fMRI 重建视频具有哪些挑战？

1.fMRI 的低时间分辨率。功能性磁共振成像 fMRI 相比于常用的 EEG 脑电信号而言，具有极高的空间分辨率，可以对全脑进行细致的扫描。但是由于全脑扫描更加耗时，fMRI 拥有较低的时间分辨率，通常 2s 才能完成一次采样，帧率只有 0.5。然而，需要重建视频的时间分辨率是极高的，通常达到 30~60 的帧率。因此 fMRI 的低时间分辨率（0.5fps）和真实视频采样的高时间分辨率（30fps）之间存在严重冲突。

2. 重建视频的低级视觉感知缺乏控制。以往的研究对于视频重建，已经实现了较为精准的语义重建。例如，当采集被试看见一个男人的 fMRI 信号并用于重建，可以获得一段男人的视频。然而，视频更难的点在于物体形状变化，人物动作以及场景的变化。因此过往的研究缺乏对重建视频的低级视觉感知的控制。

为了解决上述挑战，我们主张利用关键帧图像作为过渡视频重建的锚点，与大脑的认知机制相吻合。此外，fMRI 到视频重建考虑低级感知特征，从大脑活动解码低级感知流，如运动和动态场景，以补充关键帧，从而增强高保真帧的重建，生成平滑的视频。我们提出了一种新颖的 fMRI-to-video 重建框架 NeuroClips，引入了两个可训练的组件 —— 感知重建器（Perception Reconstructor）和语义重建器（Semantics Reconstructor），分别用于重建低级感知流和语义关键帧。而在推理过程中，采用一个预先训练好的 T2V 扩散模型，注入关键帧和低级感知流，以实现高保真度、平滑度和一致性的视频重建。该模型不仅在各项指标上实现了 SOTA 性能，还通过使用多 fMRI 融合，开创了长达 6 秒、8 帧率视频重建的探索。

研究方法

NeuroClips 的整体框架如下图所示：

图 1：NeuroClips 的整体框架。红色的线代表推理过程。

NeuroClips 包括三个关键组件：感知重建器（PR）从感知层面生成模糊但连续的粗略视频，同时确保其连续帧之间的一致性；语义重建器（SR）从语义层面重建高质量的关键帧图像；推理过程是 fMRI 到视频的重建过程，它使用 T2V 扩散模型，并结合 PR 和 SR 的重建结果，以高保真度、平滑度和一致性重建最终的保真视频。

1、感知重建器（Perception Reconstructor，PR）

将视频按两秒间隔分割成多个片段（即 fMRI 的时间分辨率）。通过在 Stable Diffusion 的 VAE 解码器中添加时间注意力层，获得对齐的 fMRI 模糊嵌入，这些嵌入可以用于生成模糊视频，其缺乏语义内容，但能感知场景的通用动作信息，在位置、形状、场景等感知指标上表现出最先进的水平。

2、语义重建器（Semantics Reconstructor , SR）

语义重构器（SR）的核心目标是重建高质量的关键帧图像，以解决视觉刺激和 fMRI 信号之间的帧率不匹配的问题，从而提高最终视频的保真度。现有愈发成熟的 fMRI 到图像重建研究促进了我们的目标，包括将 fMRI 进行低维处理、关键帧图像与 fMRI 的对齐、重建嵌入生成以及文本模态的重建增强。受到对比学习的启发，我们在和之间进行对比学习，通过额外的文本模态来增强重建嵌入。对比损失作为这一过程的训练损失。我们设置混合系数和来平衡多个损失。

其中，是关键帧图像和 fMRI 对齐采用的结合了 MixCo 和对比损失的双向损失，是重建时与 DALLE・2 相同的扩散先验损失。

3、推理过程（Inference Process）

我们结合模糊的粗略视频（PR 输出）、高质量的关键帧图像（模糊视频第一帧嵌入和 fMRI 嵌入输入到 SR 中的 SDXL unCLIP 生成）和额外的文本模态分别作为、和Guidance 来重建具有高保真度、平滑度和一致性的最终视频。我们采用 text-to-video（T2V）的扩散模型来帮助重建视频，而由于嵌入的语义仅来自文本模态。我们还需要通过增强来自视频和图像模态的语义来创建 “综合语义” 嵌入，以帮助实现 T2V 扩散模型的可控生成。

4、多 fMRI 融合（Multi-fMRI Fusion）

如何从 fMRI 中重建更长的视频呢？在推理过程中，我们考虑来自两个相邻的 fMRI 样本的两个重建关键帧的语义相似性，如果语义相似，我们就用前一个 fMRI 重建视频的尾帧替换后一个 fMRI 的关键帧，该帧将作为后一个 fMRI 的第一帧来生成视频。如图 2 所示，通过这一策略，我们首次实现了长达 6 秒的连续视频重建。

图 2：多 fMRI 融合的可视化。

实验结果

本文使用开源的 fMRI-video 数据集（cc2017 数据集）进行了 fMRI-to-video 的重建实验，通过基于帧的和基于视频的指标进行了定量评估，并进行了全面分析。

从 fMRI 重建视频的 Demos

表 1：NeuroClips 重建性能与其他方法的定量比较。

结果如上表所示，NeuroClips 在 7 个指标中的 5 个上显著优于先前的方法，SSIM 性能大幅提升，表明其补充了像素级控制的不足。语义层面的指标也总体上优于先前的方法，证明了 NeuroClips 更好的语义对齐范式。在评估视频平滑度的 ST 级指标上，由于我们引入的模糊的粗略视频（ Guidance），NeuroClips 远超 MinD-Video，重建视频更加流畅。

神经科学解释性

此外，为了探究神经层面的可解释性，本文在脑平面上可视化了体素级别的权重以观察整个大脑的关注度。可以观察到，任何任务视觉皮层都占据着重要的位置，以及 SR 和 PR 的不同权重。

结论

本文创新性地提出了 NeuroClips，这是一种用于 fMRI-to-video 重建的新颖框架。通过感知重建和语义重建两条路径实现了体素级和语义级的 fMRI 视觉学习。我们可以在不进行额外训练的情况下将它们配置到最新的视频扩散模型中，以生成更高质量、更高帧率和更长的视频。NeuroClips 能够在语义级精度和像素级匹配程度上恢复视频，从而在该领域建立了新的最佳水平，我们还可视化了 NeuroClips 的神经科学可解释性。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！
ECCV 2024 论文和代码下载
在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群


▲扫码或加微信号: CVer2233，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看

http://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247611460&idx=3&sn=34069f186fa7bef9c574b60d49b87542

CVer

一个专注于计算机视觉方向的公众号。分享计算机视觉、深度学习、人工智能、自动驾驶和高校等高质量内容。

最新文章

炼丹神器来了！ Kaggle大神强推！

ECCV 2024 | CityGaussian：VR/AR时代的城市重建新标杆

Nature子刊！ViTaM：全新的视觉 - 触觉联合记录和追踪系统

AAAI 2025 开奖倒计时！CVPR 2025、ICLR 2025 投稿微信群来了！

最大的Mamba和遥感微信群成立！

大学“一级教授”和“四级教授”的区别有多大？

中央发文：不合格博士生，退出！

顶刊TPAMI 2024！白翔团队提出：局部场景文字检索任务和新方法

仅仅一天，Gemini就夺回了GPT-4o拿走的头名！

AAAI 2025 即将开奖！附CVPR 2025、ICLR 2025 投稿微信群！

异常检测和缺陷检测微信群成立！

教育部公布：2025年考研人数，再降50万！

16岁中学生获正高职称，后续来了

可以封神了！原来找论文idea这么简单

NeurIPS 2024 Oral | NeuroClips：揭秘从脑信号重建高保真流畅视频

ICLR 2025 改分啦！ICLR 2025和CVPR 2025投稿微信群成立！

DeepSeek团队新作JanusFlow：1.3B大模型统一视觉理解和生成

年仅42岁！一高校青年教师病逝……

面试小米，惨不忍睹。。。

NeurIPS 2024 | 收敛加快8倍，准确率提升超30%！华科大提出MoE Jetpack框架

ACM MM 2024 | S2TD-Face：基于素描输入的精细3D人脸重建方法

CVPR 2025、ICLR 2025和AAAI 2025投稿微信群来了！

扩散模型和多模态微信群成立！

重磅！2024年全球高被引科学家名单出炉！

YOLO跌落神坛？新一代目标检测器有新突破

NeurIPS 2024 | Coupled Mamba：通过耦合SSM增强多模态融合

MMRel：多模态大模型时代的评测物体间关系理解新基准

ICASSP 2025 出分了！投稿群成立！附CVPR 、AAAI 2025交流群！

医学图像微信群来了！

本科生一作、研究生二作、教授母亲三作，浙大奖学金获得者论文被质疑，高校回应！

又一篇AI顶会！这个idea“简直杀疯了 ” ...

NeurIPS 2024 | 浙江大学提出SINE：通用分割新模型

哈佛大学 & MIT 招收实习生

ICASSP 2025 投稿交流群成立！

最大ReID和目标跟踪微信群来了！

巨星陨落！北京大学发讣告

超越YOLOv8还不够！这些目标检测开源项目又上新了

顶刊TPAMI 2024！清华黄高团队提出：高效图像识别的统一动态网络

重磅！CVPR 2025、ICLR 2025和AAAI 2025投稿微信群成立！

快加入！最大的目标检测和图像分割微信群来了！

打破纪录！中国科学家让薛定谔的猫活了23分钟

这6个岗位，大厂抢疯了！！

NeurIPS 2024 | CMU提出RLT：加速视频Transformer新方法

中国团队斩获EMNLP 2024最佳论文奖！主办方：明年苏州见！

ICLR 2025 开始Rebuttal！AAAI 2025和CVPR 2025投稿微信群成立！

多模态和扩散模型微信群来了！

“16岁中学生获正高职称”，后续来了

月薪49k！字节跳动校招开奖！

LeCun团队新作DINO-WM：预训练视觉特征的世界模型，超强规划能力！

又一OpenAI研究员离职！不相信OpenAI能造福世界，AGI使命无比困难

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

NeurIPS 2024 Oral | NeuroClips：揭秘从脑信号重建高保真流畅视频

AI/CV重磅干货，第一时间送达点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

何恺明在MIT授课的课件PPT下载

ECCV 2024 论文和代码下载

CVPR 2024 论文和代码下载

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！