NeurIPS 2024｜自监督湍流分析，减少99%标注数据需求

科技 2024-11-02 22:01 广东

↑ 点击蓝字关注极市平台

作者丨将门创投

来源丨将门创投

编辑丨极市平台

极市导读

在仅需1%的标注数据的情况下，实现超越有监督方法的性能，并且具有跨领域鲁棒性。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

本文介绍了来自NeurIPS 2024的最新科研成果 ———一种完全自监督的湍流分析新范式。其性能远远超越同类有监督方法，且所需的训练样本（无标注）仅为以往方法的1%。该方法受湍流领域所特有的物理规律启发，引入了一种全新的零散度损失。同时，该方法自然支持测试时优化，利用动态测速增强器（DVE）模块，实现了强大的跨领域鲁棒性：仅在物理合成数据上训练，即可泛化到真实世界数据上。

论文链接：

https://arxiv.org/abs/2410.11934

代码链接：

https://github.com/Forrest-110/FluidMotionNet

一、动机

测量和理解湍流是一个至关重要的问题，无论是在自然界，还是在工程社会中，湍流在生活的各个方面无处不在。三维粒子跟踪测速（PTV）是分析湍流的关键技术，也是本世纪最具挑战性的计算问题之一。三维粒子跟踪测速仪的核心是双帧流体运动估计算法，该算法在两个连续帧中跟踪粒子。最近，基于深度学习的方法如 DeepPTV**[1]和 GotFlow3D[2]在双帧流体运动估计方面取得了令人印象深刻的优越性能；然而，这些方法利用的是全监督方案，严重依赖于大量有标记数据**。这种数据依赖对AI4Science领域提出了巨大挑战，尤其是在PTV领域: 由于需要精确选择示踪粒子、定制照明和相机设置，因此收集合适的数据非常复杂。此外，某些场景（如疾病背景下的细胞质流）非常罕见，因此几乎不可能获得大量的数据。

为了解决上述难题，研究团队引入了一种新型的纯自监督框架，专门用于三维 PTV 过程中的双帧流体运动估计。针对数据收集的固有困难，该方法可在有限的数据集规模下工作，仅需要现有的全监督方法通常使用的数据集规模的1%，就可获得相比拟的性能。此外，流体粒子具有特殊的物理特性，为此，研究团队利用不可压缩流体速度场固有的零散度原理，设计了一种专为流体定制的新型零散度自监督损失算法。由于该方法是自监督式的，自然支持测试时优化。因此，研究团队还引入了一个称为动态测速增强器（DVE）的模块，该模块可在测试过程中根据特定输入数据即时优化初始预测，能够在各种测试场景中提高准确度，具有较好的跨域鲁棒性。

通过全面的实验，该纯自监督框架明显优于完全监督框架，即使在数据受限的条件下也是如此。此外，研究团队进行了跨领域鲁棒性分析，展示了该框架具有将其推广到未见领域的内在能力，甚至包括真实世界的物理/生物领域，突出体现了该方法在真实世界三维 PTV 应用的可能。

二、方法

方法概述：训练阶段，该方法使用输入点云构建图表示，然后通过可训练的特征提取器，并使用自监督损失项（包括重建损失 g 、平滑损失 f 和零散度损失 e ）求解最优传输问题，以进行初始流估计。测试阶段，有了初始流估计值 F_init，该方法再利用另一个重建损失函数 g* 优化残差 R，以生成最终流 F。

2.1 问题形式化

为了阐明提出的双帧流体运动估计方法, 研究团队首先将问题形式化：算法输入为两个连续的、非结构化的3D粒子集，和，这些粒子集分别在时间 t 和被记录。该方法输出预测的流动运动 , 将中的每个粒子映射到一个向量 , 该向量表示两帧之间的移动，捕捉湍流3D环境中的流动动态。

2.2 训练阶段

2.2.1 图特征提取器

基于点云的提取器常用于激光雷达场景流估算。虽然这些提取器能有效辨别更广泛的空间结构，但它们把握错综复杂的局部关系（这对分析流体动力学至关重要）的能力可能不足。相比之下，基于图的特征提取器通过考虑近似节点（在本文的语境中为流体粒子）之间的关系，在捕捉局部模式方面表现出色。因此，受到 GotFlow3D [2] 的启发，研究团队选择了基于图的特征提取器：首先从输入点云中构建一个静态近邻图。然后通过 GeoSetConv 层对该图进行处理，形成高维几何局部特征。为了进一步丰富特征，该方法根据高维特征使用 EdgeConv 构建动态图，形成一个能输出静态-动态特征的 GNN。

2.2.3 求解最优传输问题

利用特征提取器得到的静态-动态特征，可通过最优传输（optimal transport） 框架来求解对应链接问题，其中两点之间的传输成本越高，表明提取特征空间内的相似度越低。最优传输方案可以得到和之间的软对应权重, 该权重可用于求解初始流估计值。

2.2.4 自监督损失

1. 重建损失：

自监督流体学习的一个核心原则是与应该相似。Chamfer distance （CD）是测量点云补全中点云形状相似度的标准度量。因此，该方法采用CD作为重构损失，并添加了一个正则化项以防止退化：

这里, 代表由形成的估计点云, 是由形成的目标点云。表示最优传输中的匹配置信度, 它是运输成本的加权和。项用于避免的平凡解。

2. 平滑损失：

鉴于速度场具有无限可微的特性，流速场应显示出一定级别的连续和平滑过渡（在粗略尺度上）。基于这一理论基础，该方法引入了一个平滑正则化损失来强化和维持速度场中的这种连续行为，定义如下，

这里, 代表由形成的点云。表示与最近的个点的索引集。和分别表示点和处估计的流动向量。

3. 零散度损失：

平滑损失对于流体粒子并不足够。考虑到速度场的内在属性，不可压缩流体具有零散度性质。此外，在低马赫数等条件下，可压缩流体也可以近似为不可压缩，这在许多工程环境中是近似成立的。因此，研究团队引入了零散度正则化损失，补偿了平滑损失的缺陷。

基于Splat的实现。Splat 最初用于高维高斯滤波，将输入值嵌入高维空间。该方法实现了基于splat的零散度损失：计算散度需要场的偏导数，而3D中粒子的不规则排列使这一过程复杂化。因此，作者提出将非结构化的流动估计“splat”到一个统一的3D网格上，然后在这些网格点上应用零散度正则化。
形式上, 密集网格由表示, 其中表示网格点的3D索引。参数对应于网格的间距。给定网格点 , 使用逆平方距离作为插值权重来近似该点的流动,

其中是点处估计的流动值。表示的点集中网格点的邻域。参数引入是为了保持数值稳定性。使用splatting，将变量粒子距离转换为固定网格间距，从而实现高效计算零散度损失。

一旦采用了 Splat, 由指定的某点的散度可以定义为:

其中, 是在第项为 1 的单位向量。

最终，零散度正则化可以表述为，

其中 J、K 和 L 分别代表各个维度上的网格点数。

总而言之，该方法训练阶段最终的自监督训练损失为

2.3 测试阶段

从训练网络得到初始流估计后, 该方法在测试阶段引入了一个新颖的动态流速增强器（DVE）模块进行测试时优化。这提供了额外的灵活性, 以适应未见情况并解决由于有限的训练数据而引起的潜在不准确性。形式上, DVE寻求一个残差流向量 , 使得，可以优化以纠正不准确性。DVE本质上是一个使用目标函数的优化过程, 公式如下:

该损失函数类似于 , 但没有正则化。该优化问题使用Adam优化器求解, 只涉及来自矩阵的参数。考虑到现有的测试时优化模块运行缓慢, DVE相比之下非常高效。

三、实验

作者在多个数据集上对提出的框架进行了全面评估。首先，作者将提出的方法与 SOTA 全监督方法进行了比较。接着，针对特定领域数据有限的现实情况，考察了该方法在训练数据规模受限的情况下的性能。然后，作者评估了该框架在不同领域下的性能，突出了其跨领域鲁棒性。此外，作者还对框架的各个组件进行了全面的消融研究，以验证其效果。

这里展示主要结果，更多结果请参考论文。

3.1 与最先进方法的比较

以完全监督方法为基准。表示可训练参数的数量。表示每个样本的推理时间。最佳结果以粗体标出。

不同流体类型之间的比较。最佳结果用粗体标出，次优结果用下划线标出。右侧的子图直观显示了这三种流体。颜色越深表示流速越高。所有模型都是在完整数据基础上训练的，除了Ours (1%)。

3.2 有限数据训练表现

3.3 跨领域鲁棒性表现

3.3.1 在同一合成流体数据集上进行测试

六折交叉验证。以最先进的流体运动学习方法 GotFlow3D 作为基准，EPE 指标结果。

3.3.2 Sim2Real实验

从合成流体数据到实际流体数据的测试

(a) DeformationFlow 数据可视化。(b) 提出的方法进行的初始估算。(c) SerialTrack和 Ours+ST的耗时比较。“PerIt "表示 PTV 每次迭代的时间。

从合成物理流体到生物数据的测试

AVIC 图像数据集。C2E, C2N, E2N 代表三种设置：Cyto-D 处理与 Endo-1 处理对比，Cyto-D 处理与正常处理对比，Endo-1 处理与正常处理对比。MNDS 代表平均邻域距离得分。

四、总结与展望

此研究提出了一种测试时自监督框架，用于从双帧非结构化粒子集学习三维流体运动。该方法解决了数据效率依赖和跨域鲁棒性的难题，这对实际应用至关重要。研究团队通过两个真实世界的研究证明了所提出的方法的可行性，期待此类研究结果可以为进一步研究广泛的真实世界应用、探索特定场景的约束条件以及开发新型模型架构以增强适应性提供参考。

参考文献

[1] Jiaming Liang, Shengze Cai, Chao Xu, Tehuan Chen, and Jian Chu. Deepptv: particle tracking velocimetry for complex flow motion via deep neural networks. IEEE Transactions on Instrumentation and Measurement, 71:1–16, 2021.

[2] Jiaming Liang, Chao Xu, and Shengze Cai. Gotflow3d: recurrent graph optimal transport for learning 3d flow motion in particle tracking. arXiv preprint arXiv:2210.17012, 2022.

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏：多模态大模型超详细解读专栏｜搞懂Tranformer系列｜大视觉模型 (LVM) 解读｜扩散模型系列｜极市直播

技术综述：小目标检测那点事｜大模型面试八股含答案｜万字长文！人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

极市平台

为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

Windows + VSCode 配置 OpenCV C++ 一站式开发调试环境教程

我为什么离开OpenAI？六年元老发离职长文：AGI将至，我们远没准备好

Pattern Recognition｜同时关注局部和全局信息，利用注意力抓取不同粒度的视觉信息来描述图片

NeurIPS 2024｜RoPINN: 局域优化的物理信息神经网络，PINN的新训练范式

无人车大战打响！美国萝卜日爆8000单破纪录，中美对决已到关键转折点

「黑神话」级3A大作AI实时游戏生成！港科大、中科大等祭出最强扩散Transformer-GameGen-X

NeurIPS 2024｜观物取象，穷理尽性：从视觉观测中推理物理运动规律

vLLM这一年的新特性以及后续规划（总结版!）

中国断臂女子，拿到了这场「赛博奥运会』的冠军！人机共生的时代已来

精英齐聚芜湖，大赛成果分享｜邀您参加2024长三角（芜湖）算力算法创新应用大赛颁奖典礼！

复旦提出 CTA-Net：卷积与Transformer的协同，通过轻量级多尺度特征融合提升视觉识别！

NeurIPS 2024｜浙大、微信提出精确反演采样器新范式，彻底解决扩散模型反演问题

90后上海女生，成美国数学大奖首位女性华人得主！获评委陶哲轩盛赞

finetune后的模型参数，还可以继续怎么玩？

ECCV'24｜SAM4MLLM：结合多模态大型语言模型和SAM实现高精度引用表达分割

CPU也能跑模型：OpenVINO模型部署入门教程

震撼预警：满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

TPAMI 2024｜解耦图神经网络：同时训练多个简单的GNN而不是一个

ECCV 2024｜谷歌提出LookupViT：全新通用视觉Transformer块

只要两张3090就可复现！Vision Search Assistant开源：VLM与Web搜索能力的巧妙结合

谷歌员工集体打脸劈柴，25%新代码AI生成夸大事实！Linux之父怒斥90%都是营销

NeurIPS 2024｜浙大/微信/清华提出：彻底解决扩散模型反演问题

无需昂贵标注！大幅提升SDXL和SD3-Medium效果！文生图偏好优化新宠来了

实践教程｜CUDA C++编程指北-编程接口与硬件实现

刚刚，阿里全球数学竞赛决赛结果公布，姜萍违反预选赛规则未获奖

从0开始用 PyTorch 构建完整的 NeRF

NeurIPS 2024｜自监督湍流分析，减少99%标注数据需求

边缘检测算法综合指南

谷歌Agent首次发现真实世界代码漏洞！抢救全球数亿设备，或挽回数十亿美元损失？

100+深度学习各方向数据集资源大盘点

CLIPFit：不绕弯子，直接微调比提示微调和适配器微调更好｜EMNLP'24

NeurIPS 2024｜机器人操纵世界模型来了，成功率超过谷歌RT-1 26.6%

谷歌被俄罗斯罚款2,500,000,000,000,000,000,000,000,000,000,000,000美元

融合 Mamba 与 Transformer｜MaskMamba 引领非自回归图像合成,推理速度提升 54.44% !

NeurIPS2024｜提高专业生产力，让你的AI画作布局可控，360 AI Research开源新模型HiCo

如何优雅地测量GPU CUDA Kernel耗时？

全球最大AI超算内部首次曝光！马斯克19天神速组装10万块H100，未来规模还将扩大一倍

一文看完多模态：从视觉表征到多模态大模型

NeurIPS 2024｜字节联合华师提出统一的多模态文字理解与生成大模型

零基础万字长文实践diffusion模型

AI「长脑子」了？LLM惊现「人类脑叶」结构并有数学代码分区，MIT大牛新作震惊学界！

超越YOLOv10/11、RT-DETRv2/3！中科大D-FINE重新定义边界框回归任务

NeurlPS 2024 Oral｜多模态融合检测端到端算法E2E-MFD来了！

三种Transformer模型中的注意力机制介绍及Pytorch实现：从自注意力到因果自注意力

Grok图像理解功能上线，单挑ChatGPT结果惊人！无地标照片秒定位，18世纪手稿一眼识别

ECCV 2024｜SegVG：刷新视觉定位新SOTA！将视觉定位的目标边界框转化为分割信号

NeurIPS 2024｜TextHarmony: 基于统一架构的视觉文本理解与生成模型

全面解读高效Segment Anything模型变体：各种图像分割加速策略和核心技术展示

陶哲轩神预言！Transformer破解百年三体难题，凭数学直觉找到李雅普诺夫函数

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉