NeurIPS 2024 | 自监督湍流分析，减少99%标注数据需求

创业科技 2024-11-01 08:22 北京

本文介绍了来自NeurIPS 2024的最新科研成果 ———一种完全自监督的湍流分析新范式。其性能远远超越同类有监督方法，且所需的训练样本（无标注）仅为以往方法的1%。该方法受湍流领域所特有的物理规律启发，引入了一种全新的零散度损失。同时，该方法自然支持测试时优化，利用动态测速增强器（DVE）模块，实现了强大的跨领域鲁棒性：仅在物理合成数据上训练，即可泛化到真实世界数据上。

论文题目：
Dual-frame Fluid Motion Estimation with Test-time Optimization and Zero-divergence Loss
论文链接：
https://arxiv.org/abs/2410.11934
代码链接：
https://github.com/Forrest-110/FluidMotionNet

一、动机

测量和理解湍流是一个至关重要的问题，无论是在自然界，还是在工程社会中，湍流在生活的各个方面无处不在。三维粒子跟踪测速（PTV）是分析湍流的关键技术，也是本世纪最具挑战性的计算问题之一。三维粒子跟踪测速仪的核心是双帧流体运动估计算法，该算法在两个连续帧中跟踪粒子。最近，基于深度学习的方法如 DeepPTV[1]和 GotFlow3D[2]在双帧流体运动估计方面取得了令人印象深刻的优越性能；然而，这些方法利用的是全监督方案，严重依赖于大量有标记数据。这种数据依赖对AI4Science领域提出了巨大挑战，尤其是在PTV领域: 由于需要精确选择示踪粒子、定制照明和相机设置，因此收集合适的数据非常复杂。此外，某些场景（如疾病背景下的细胞质流）非常罕见，因此几乎不可能获得大量的数据。

为了解决上述难题，研究团队引入了一种新型的纯自监督框架，专门用于三维 PTV 过程中的双帧流体运动估计。针对数据收集的固有困难，该方法可在有限的数据集规模下工作，仅需要现有的全监督方法通常使用的数据集规模的1%，就可获得相比拟的性能。此外，流体粒子具有特殊的物理特性，为此，研究团队利用不可压缩流体速度场固有的零散度原理，设计了一种专为流体定制的新型零散度自监督损失算法。由于该方法是自监督式的，自然支持测试时优化。因此，研究团队还引入了一个称为动态测速增强器（DVE）的模块，该模块可在测试过程中根据特定输入数据即时优化初始预测，能够在各种测试场景中提高准确度，具有较好的跨域鲁棒性。

通过全面的实验，该纯自监督框架明显优于完全监督框架，即使在数据受限的条件下也是如此。此外，研究团队进行了跨领域鲁棒性分析，展示了该框架具有将其推广到未见领域的内在能力，甚至包括真实世界的物理/生物领域，突出体现了该方法在真实世界三维 PTV 应用的可能。

二、方法

方法概述：训练阶段，该方法使用输入点云构建图表示，然后通过可训练的特征提取器，并使用自监督损失项（包括重建损失 g 、平滑损失 f 和零散度损失 e ）求解最优传输问题，以进行初始流估计。测试阶段，有了初始流估计值 F_init，该方法再利用另一个重建损失函数 g* 优化残差 R，以生成最终流 F。

2.1 问题形式化

为了阐明提出的双帧流体运动估计方法，研究团队首先将问题形式化：算法输入为两个连续的、非结构化的3D粒子集，和，这些粒子集分别在时间和被记录。该方法输出预测的流动运动，将中的每个粒子映射到一个向量，该向量表示两帧之间的移动，捕捉湍流3D环境中的流动动态。

2.2 训练阶段

2.2.1 图特征提取器

基于点云的提取器常用于激光雷达场景流估算。虽然这些提取器能有效辨别更广泛的空间结构，但它们把握错综复杂的局部关系（这对分析流体动力学至关重要）的能力可能不足。相比之下，基于图的特征提取器通过考虑近似节点（在本文的语境中为流体粒子）之间的关系，在捕捉局部模式方面表现出色。因此，受到 GotFlow3D [2] 的启发，研究团队选择了基于图的特征提取器：首先从输入点云中构建一个静态近邻图。然后通过 GeoSetConv 层对该图进行处理，形成高维几何局部特征。为了进一步丰富特征，该方法根据高维特征使用 EdgeConv 构建动态图，形成一个能输出静态-动态特征的 GNN。

2.2.3 求解最优传输问题

利用特征提取器得到的静态-动态特征，可通过最优传输（optimal transport） 框架来求解对应链接问题，其中两点之间的传输成本越高，表明提取特征空间内的相似度越低。最优传输方案可以得到和之间的软对应权重，该权重可用于求解初始流估计值。

2.2.4 自监督损失

1. 重建损失：

自监督流体学习的一个核心原则是与应该相似。Chamfer distance （CD）是测量点云补全中点云形状相似度的标准度量。因此，该方法采用CD作为重构损失，并添加了一个正则化项以防止退化：

这里，代表由形成的估计点云，是由形成的目标点云。表示最优传输中的匹配置信度，它是运输成本的加权和。项用于避免的平凡解。

2. 平滑损失：

鉴于速度场具有无限可微的特性，流速场应显示出一定级别的连续和平滑过渡（在粗略尺度上）。基于这一理论基础，该方法引入了一个平滑正则化损失来强化和维持速度场中的这种连续行为，定义如下，

这里，代表由形成的点云。表示与最近的个点的索引集。和分别表示点和处估计的流动向量。

3. 零散度损失：

平滑损失对于流体粒子并不足够。考虑到速度场的内在属性，不可压缩流体具有零散度性质。此外，在低马赫数等条件下，可压缩流体也可以近似为不可压缩，这在许多工程环境中是近似成立的。因此，研究团队引入了零散度正则化损失，补偿了平滑损失的缺陷。

基于Splat的实现。
Splat 最初用于高维高斯滤波，将输入值嵌入高维空间。该方法实现了基于splat的零散度损失：计算散度需要场的偏导数，而3D中粒子的不规则排列使这一过程复杂化。因此，作者提出将非结构化的流动估计“splat”到一个统一的3D网格上，然后在这些网格点上应用零散度正则化。
形式上，密集网格由表示，其中表示网格点的3D索引。参数对应于网格的间距。给定网格点，使用逆平方距离作为插值权重来近似该点的流动，

其中是点处估计的流动值。表示的点集中网格点的邻域。参数引入是为了保持数值稳定性。使用splatting，将变量粒子距离转换为固定网格间距，从而实现高效计算零散度损失。

一旦采用了 Splat，由指定的某点的散度可以定义为：

其中，是在第项为1的单位向量。

最终，零散度正则化可以表述为，

其中 J、K 和 L 分别代表各个维度上的网格点数。

总而言之，该方法训练阶段最终的自监督训练损失为

2.3 测试阶段

从训练网络得到初始流估计后，该方法在测试阶段引入了一个新颖的动态流速增强器（DVE）模块进行测试时优化。这提供了额外的灵活性，以适应未见情况并解决由于有限的训练数据而引起的潜在不准确性。形式上，DVE寻求一个残差流向量，使得，可以优化以纠正不准确性。DVE本质上是一个使用目标函数的优化过程，公式如下：

该损失函数类似于，但没有正则化。该优化问题使用Adam优化器求解，只涉及来自矩阵的参数。考虑到现有的测试时优化模块运行缓慢，DVE相比之下非常高效。

三、实验

作者在多个数据集上对提出的框架进行了全面评估。首先，作者将提出的方法与 SOTA 全监督方法进行了比较。接着，针对特定领域数据有限的现实情况，考察了该方法在训练数据规模受限的情况下的性能。然后，作者评估了该框架在不同领域下的性能，突出了其跨领域鲁棒性。此外，作者还对框架的各个组件进行了全面的消融研究，以验证其效果。

这里展示主要结果，更多结果请参考论文。

3.1 与最先进方法的比较

以完全监督方法为基准。表示可训练参数的数量。表示每个样本的推理时间。最佳结果以粗体标出。

不同流体类型之间的比较。最佳结果用粗体标出，次优结果用下划线标出。右侧的子图直观显示了这三种流体。颜色越深表示流速越高。所有模型都是在完整数据基础上训练的，除了Ours (1%)。

3.2 有限数据训练表现

有限训练数据下EPE指标的比较。

3.3 跨领域鲁棒性表现

3.3.1 在同一合成流体数据集上进行测试

六折交叉验证。以最先进的流体运动学习方法 GotFlow3D 作为基准，EPE 指标结果。

3.3.2 Sim2Real实验

从合成流体数据到实际流体数据的测试

(a) DeformationFlow 数据可视化。(b) 提出的方法进行的初始估算。(c) SerialTrack和 Ours+ST的耗时比较。“PerIt "表示 PTV 每次迭代的时间。

从合成物理流体到生物数据的测试

AVIC 图像数据集。C2E, C2N, E2N 代表三种设置：Cyto-D 处理与 Endo-1 处理对比，Cyto-D 处理与正常处理对比，Endo-1 处理与正常处理对比。MNDS 代表平均邻域距离得分。

四、总结与展望

此研究提出了一种测试时自监督框架，用于从双帧非结构化粒子集学习三维流体运动。该方法解决了数据效率依赖和跨域鲁棒性的难题，这对实际应用至关重要。研究团队通过两个真实世界的研究证明了所提出的方法的可行性，期待此类研究结果可以为进一步研究广泛的真实世界应用、探索特定场景的约束条件以及开发新型模型架构以增强适应性提供参考。

参考文献

[1] Jiaming Liang, Shengze Cai, Chao Xu, Tehuan Chen, and Jian Chu. Deepptv: particle tracking velocimetry for complex flow motion via deep neural networks. IEEE Transactions on Instrumentation and Measurement, 71:1–16, 2021.

[2] Jiaming Liang, Chao Xu, and Shengze Cai. Gotflow3d: recurrent graph optimal transport for learning 3d flow motion in particle tracking. arXiv preprint arXiv:2210.17012, 2022.

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650514957&idx=1&sn=04931b1d16e160b19bb7f1358682b8ca

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

最新文章

Talk预告｜澳门大学田春霖：小参数大作为，揭秘非对称LoRA架构的高效性能

NeurIPS 2024 | 解锁大模型知识记忆编辑的新路径

ECCV 2024 | 南洋理工人体动作生成新范式：统一多模态的动作生成大模型

NeurIPS 2024 | 类脑智能与黎曼图学习：黎曼脉冲神经元初探

Talk预告｜UT-Austin樊志文：端到端从多视角图片解析3D与全景3D生成

NeurIPS 2024 | 让大语言模型使用代码解决图分析推理任务

Talk预告｜中国科学院大学教授高林：高真实感三维建模与生成研究进展

活动报名 | 探秘自主机器人领域：19 位青年报告嘉宾集结，ARTS 2024研讨会震撼来袭！

MoA：混合稀疏注意力加速长文本生成，实现最高8倍吞吐率提升

Talk预告｜香港科技大学叶汉荣：X-VILA - 大语言模型的跨模态对齐

ECCV 2024 | 利用函数映射优化图像对应关系：零样本推理的新方法

Talk预告｜北京大学余旺博：探索视频扩散模型在3D生成和重建中的应用

EMNLP 2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

NeurIPS 2024 | 自监督湍流分析，减少99%标注数据需求

HazyDet：利用深度线索的雾天无人机目标检测开源基准

将门月报 | 文远知行正式登陆纳斯达克、智谱与中国三星宣布战略合作、帷幄与永旺在印尼达成紧密合作......

Talk预告｜香港中文大学汪福运：Rectified Diffusion - 一般扩散模型的ODE轨迹修正

ICML 2024 | 知识感知的强化学习优化的蛋白质定向进化方法

Talk预告｜西安电子科技大学曾泽群：CLIP是否有能力做零样本的图像描述生成？

NeurIPS 2024 | MoGU：用于增强模型安全性并保持其可用性的框架

将门创投早期项目「文远知行」正式在纳斯达克挂牌上市

NeurIPS 2024 | AdaptiveDiffusion - 为每个prompt量身定制的扩散加速方案

ECCV 2024 | 推动纯视觉自动驾驶落地，单目三维检测实时泛化

Talk预告｜南开大学李政：视觉语言模型CLIP的提示学习方法研究

贝联珠贯完成Pre-A轮数千万元融资，将门创投领投

Talk预告｜香港中文大学邵昊：LMDrive - 大语言模型加持的闭环端到端自动驾驶框架

NeurIPS 2024 | VFIMamba：基于状态空间模型的视频插帧新SOTA

业内首个突破十亿参数的时序大模型，引领预测性能新高峰!

活动报名 | 将门横琴科技创新日暨人工智能加速器开业仪式

EMNLP 2024 | 从特征解耦角度重新审视单义神经元及其在对齐算法中的作用

图少样本学习综述：从元学习到预训练和提示学习

Talk预告｜香港科技大学高深远：构建通用可泛化的自动驾驶世界模型

NeurIPS 2024 | 结构信息原理指导的高效智能体探索

Talk预告｜香港中文大学王鸿儒：工具学习 - 杂谈 apple intelligence 和 o1 的异同

ICML 2024 | 论扩散模型采样轨迹的规律性及快速采样算法

ECCV 2024 | 研究残差及跳跃连接的可解释性，层相关性传播LRP在ResNet网络中的适配

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

Talk预告｜香港科技大学黄华健：高写实三维数字化时代下的在线同时定位和建图

CoRL 2024 | InstructNav：通用指令导航大模型系统

Talk预告｜普渡大学倪瑞祺：基于物理信息机器学习的运动规划

ICLR 2024 | BioBridge：通过知识图谱桥接生物医学基础模型

将门月报 | 格灵深瞳携手北京铁路局、文远知行与Uber达成战略合作、帷幄与华为云建立战略合作伙伴关系......

清华、北大等发布Self-Play强化学习最新综述

ECCV 2024 | 代码开源&方法简单，探索基于相机RAW图像的High-level视觉任务：RAW-Adapter

ICML 2024 | 从拓扑视角出发，10行代码提升类别不平衡图节点分类

Talk预告｜慕尼黑工业大学翟光耀：SG-Bot - 基于场景图生成式模型的机械臂操作和物体重排

300篇文献！大模型走向物理世界：TeleAI发布大模型驱动的具身智能综述

Talk预告｜北京航空航天大学阮受炜：探索视觉感知的3D视角鲁棒性

ECCV 2024 | EchoScene：通过场景图扩散生成3D室内场景

一张图搞定3D视效！深度解读北大、港中文、腾讯等联合开源项目ViewCrafter

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉