西湖大学人工智能方向6篇论文被国际学术会议ACM MM 2024录用

学术   2024-08-07 19:42   浙江  

ACM MM 2024

7月21日,中国计算机学会(CCF)推荐的A类国际学术会议ACM Multimedia 2024论文接收结果公布。西湖大学工学院人工智能方向共有6篇论文被录用,本次会议共录用1149篇论文,录用率为26.47%。


国际多媒体会议(ACM International Conference on Multimedia,简称ACM MM)由国际计算机协会(ACM)发起,是多媒体处理、分析与计算领域最具影响力的国际顶级会议。ACM MM 2024将于2024年10月28日至11月1日在澳大利亚墨尔本举行。


本文将一并介绍西湖大学工学院人工智能方向的6篇研究成果。

01

LiDAR-NeRF:通过神经辐射场的新型激光雷达视图生成

LiDAR-NeRF: Novel LiDAR View Synthesis via Neural Radiance Fields


本篇工作为Oral(3.97%)


唐涛

于开丞老师指导博士实习生


【科普一下】

这项工作引入了一个全新的任务,即激光雷达传感器的新视图合成。虽然传统的游戏引擎模拟器与风格迁移神经网络可以应用来渲染激光雷达新视图,但它们在生成准确和逼真的激光雷达的模式方面存在不足,因为渲染器依赖于显式的三维重建,并需要利用游戏引擎,忽略了激光雷达点的重要属性。


【技术介绍】

为了应对这一挑战,我们提出了第一个可微分的端到端激光雷达渲染框架,即激光雷达神经辐射场(LiDAR-NeRF),利用神经辐射场(NeRF)来促进三维点的几何和属性的联合学习。然而,仅仅使用NeRF并不能达到令人满意的结果,因为它只关注学习单个像素而忽略了局部信息,特别是在低纹理区域,导致几何结构较差。



为此,我们通过引入一种结构化正则化方法来保留局部结构细节,从而解决了这一问题。为了评估我们方法的有效性,我们进一步建立了一个以对象为中心的多视图激光雷达数据集,称为NeRF-MVL。它包含了从360度视角观察的9个类别的物体的观测数据,这些数据是通过多个激光雷达传感器捕获的。我们在场景级KITTI-360数据集以及我们的对象级NeRF-MVL上进行了广泛的实验,我们的LiDAR-NeRF取得了优越的激光雷达新视图合成效果。


论文地址:https://arxiv.org/abs/2304.10406

代码地址:https://github.com/tangtaogo/lidar-nerf

02

ProFD: 针对遮挡行人重识别的提示引导特征解耦算法

ProFD: Prompt-Guided Feature Disentangling for Occluded Person Re-Identification


崔灿&黄思腾

王东林实验室科研助理&2019级博士生 


【科普一下】

行人重识别(ReID)是指在大规模的行人影像数据库中,按照查询图像找到属于同一个人的图像。遮挡行人重识别是指在图像中存在遮挡现象,比如人和人之间的遮挡或者人和物体之间的遮挡。这种现象非常常见,这会导致部分有价值的人体外观信息缺失,进而严重影响重识别准确率。


【技术介绍】

为了应对行人重识别(ReID)任务中的遮挡问题,许多方法通过引入外部空间信息来提取局部特征。然而,由于遮挡导致的局部外观信息丢失以及来自外部模型的有噪声的空间信息,这些单纯基于视觉的方法无法从有限的训练数据中正确学习人体部位的概念,并且难以准确定位身体部位,最终导致特征错位。


为了解决这些挑战,我们提出了一种提示引导的特征解耦方法(ProFD),该方法利用文本模态中丰富的预训练知识来促使模型生成对齐良好的局部特征。ProFD首先设计了部位特定的提示,利用粗糙的分割掩码初步对齐视觉和文本嵌入,使文本提示具有空间感知能力。然后,为了减轻外部掩码的噪声影响,ProFD设计了混合注意力机制的解码器,确保解码过程中的空间和语义一致性,以最小化噪声影响。最后,为了避免灾难性遗忘,我们采用了自蒸馏策略,通过记忆库保留CLIP的预训练知识,以缓解训练过程中的过拟合。在多个公开数据集上的实验结果表明,ProFD展现出了具有竞争力的性能。


论文地址:https://github.com/Cuixxx/ProFD/blob/main/ACM_MM_2024_ProFD_Camera_Ready.pdf

03

PathUp: 用于多类大型病理图像合成的扩散模型的局部时间步追踪

PathUp: Patch-wise Timestep Tracking for Multi-class Large Pathology Image Synthesising Diffusion Model


李竞雄,杨林实验室2021级博士生 


【科普一下】

在数字病理学中,通过分析病理图像中的空间结构来识别癌症病灶。但由于病理全切片图像通常具有高分辨率、类别间差异小以及标注稀疏等特点,因此模拟这种复杂的空间结构非常困难。为了解决这些问题,我们提出了PathUp,这是一种专门为生成多类高分辨率病理图像定制的新型扩散模型。


我们的方法包含了一种潜在空间的局部时间步追踪,这有助于生成高质量图像,同时避免了拼接瑕疵。通过“病理对齐”机制,我们将专家的病理知识融入模型中。为了确保病变亚型和尺度信息的稳定生成,我们引入了一个特征熵损失函数。我们通过定性和定量评估,并结合人类专家的意见,证实了我们方法的有效性,证明了所合成数据的真实感。此外,我们强调了所生成图像作为增强手段的潜在价值,能进而提升下游任务(如癌症亚型分类)的表现。


【技术介绍】

在数字病理学中,通过分析病理图像中的空间内容来识别癌症病变。合成这种复杂的空间内容具有挑战性,因为病理全切片图像通常具有高分辨率、低类间变化以及标记稀疏。


为了解决这些挑战,我们提出了PathUp,一种专为合成多类高分辨率病理图像而设计的新型扩散模型。我们的方法包括一种潜在空间补丁式时间步跟踪,可帮助生成高质量的图像,避免出现平铺伪影。通过我们的病理对齐机制,将专业病理知识整合到模型中。为了确保病变亚型和比例信息的稳健生成,我们引入了特征熵损失函数。我们通过定性和定量评估以及人类专家的评估来证明我们方法的有效性,展示了生成的合成数据的真实性。此外,我们强调了我们生成图像作为增强方法的潜在效用,从而提高癌症亚型分类等下游任务的性能。


论文地址:https://openreview.net/forum?id=A7VkIoEELI

04

移动设备上实时重建的视频单曝光压缩成像系统

Towards Real-time Video Compressive Sensing on Mobile Devices


曹淼&王理顺

袁鑫实验室2021级博士生&博后 


【科普一下】

视频单曝光压缩成像系统旨在以低成本、低带宽、低功耗的方式采集高速运动场景,为高速成像提供了一种崭新的实现方式。在这个工作中,我们试图探索移动设备上进行实时重建高速场景的可能性,从而进一步推动视频单曝光压缩成像系统的实际应用。


【技术介绍】

本文提出第一个移动设备上实时的视频单曝光压缩成像重建算法MobileSCI。大家一定好奇为什么不直接将现有的视频单曝光压缩成像重建算法部署到移动设备上?



答案是做不到,因为我们会遇到以下问题:1,很多算子在移动设备上不支持,比如3D反卷积等;2,之前的算法大多基于Transformer和3D CNN,且取得了很好的性能表现。比如之前最先进的重建算法EfficientSCI可以在GPU上达到很好的实时性(EfficientSCI-T在NVIDIA 3090 GPU上重建一个256×256×8的视频仅需要0.07秒)。但是,将基于Transformer的重建算法部署到移动设备上仍然很难达到像GPU上那样优秀的实时表现。基于以上分析,我们提出一种对移动设备友好的基于2D CNN的U-Net架构重建算法MobileSCI。此外,为了进一步提高网络性能,我们提出一种全新的蒸馏方法。实验结果表明,我们提出的MobileSCI算法可以在iPhone 15上实现实时(大约35 FPS)的视频重建,同时在多个移动设备上(包括苹果设备、安卓设备、NVIDIA嵌入式设备等)显著优于之前的重建算法BIRNAT。


论文地址:https://openreview.net/pdf?id=8IgoeNhRBg

代码地址:https://github.com/mcao92/MobileSCI

05

MetaEnzyme:任务自适应再设计的泛酶元学习

MetaEnzyme: Meta Pan-Enzyme Learning for Task-Adaptive Redesign


郑蒋滨,李子青实验室2022级博士生


【科普一下】

酶作为专门的蛋白质,充当生物催化剂,加速化学反应。它们催化反应的能力确保了特异性,并能在温和条件下运行,因此在各个行业中发挥着关键作用。酶设计处于工业生产和生物领域的前沿,涉及通过功能设计(通常称为蛋白质再设计)有意创建改良的变体,基于已知的结构或序列。尽管其作用重要,计算酶设计在更广泛的蛋白质领域中仍处于早期阶段。酶数据的匮乏,加上酶任务和模型的多样性,导致计算酶设计缺乏系统的研究和监督。任务的固有复杂性和数据的巨大多样性对广泛应用构成了挑战,这导致了酶领域相对较低的关注度。


【技术介绍】

酶设计在工业生产和生物学中发挥着关键作用。然而,由于缺乏全面的基准和酶设计任务的复杂性,这一领域面临挑战,导致系统研究的匮乏。因此,计算酶设计在更广泛的蛋白质领域中相对被忽视,仍处于早期阶段。



在这项工作中,我们通过引入MetaEnzyme来应对这些挑战,这是一种分阶段且统一的酶设计框架。首先,我们采用跨模态结构到序列的转换架构,作为以特征为驱动的起点,以获得初始的稳健蛋白质表示。随后,我们利用领域自适应技术在低资源条件下推广特定的酶设计任务。MetaEnzyme专注于三项基本的低资源酶再设计任务:功能设计(FuncDesign)、突变设计(MutDesign)和序列生成设计(SeqDesign)。通过新颖的统一范式和增强的表示能力,MetaEnzyme展示了对多样化酶设计任务的适应性,取得了卓越的成果。湿实验进一步验证了这些发现,强化了再设计过程的有效性。


代码地址:https://github.com/binbinjiang/MetaEnzyme

06

基于几何和光度一致性的肠镜视觉里程计

ColVO: Colonoscopic Visual Odometry Considering Geometric

and Photometric Consistency


刘儒瑜  

金耀初实验室访问学者


【科普一下】

深度估计在医疗场景中,尤其是内窥镜下的三维感知任务中,正成为一个日益重要的研究领域。然而,在内窥镜检查领域,医生所熟悉的基于AI/深度学习技术主要集中在对二维图像进行病灶分割和病变识别,实际检查中对三维视觉技术涉猎甚少。深度估计是重要且基础的三维感知技术,通过预测每个像素的深度值,恢复体内环境的三维结构和空间信息,再结合内镜相机的姿态估计,可以实现病灶空间定位以及无辐射三维重建的临床应用。


【技术介绍】

在二维肠镜检查过程中,医生常常难以准确定位病变的空间位置。我们提出的 ColVO 框架旨在通过融合多种模态,同时估计肠道的深度和肠镜姿态,以感知三维肠道信息。



ColVO 中提出的 DCDP 策略通过融合跨模态RGB 和推断的深度特征,增强了肠镜姿态估计的性能。此外,提出的 LCC 模块在非均匀照明下增强了模型在深度和姿态估计方面的鲁棒性和准确性。在肠里程计基准数据集上的实验表明,ColVO 在深度和姿态估计方面优于目前最先进的方法。所提出的 ColVO 框架可以应用于具有高度挑战性的肠环境,为肠镜检查提供有价值的临床辅助诊断信息,包括病变定位和无辐射的肠道三维建模。


论文地址:https://scholar.google.com/citations?view_op=view_citation&hl=en&user=QtUSf1gAAAAJ&cstart=20&pagesize=80&sortby=pubdate&citation_for_view=QtUSf1gAAAAJ:ZeXyd9-uunAC



文章来源:西湖大学人工智能


西湖大学工学院面向国家战略性新兴产业发展重大需求,着力建设交叉学科与新兴学科为特色的工程技术学科群,努力建成国家重大科学技术研究和拔尖创新人才培养的重要基地。工学院以国际高端人才为学科带头人构建科研团队,分阶段、分领域打造一流人才队伍。


工学院目前重点建设七大研究领域 (Programs)——人工智能与数据科学、生物医学工程、化学与生物工程、电子信息科学与技术、材料科学与工程、机械科学与工程、可持续发展与环境工程。围绕七大领域,工学院已建成一批高水平实验室和研究中心,其中已获批成立浙江省3D微纳加工和表征研究重点实验室,培育建设浙江省海岸带环境与资源研究重点实验室,建立微纳光电系统集成浙江省工程研究中心。

扫描二维码 | 关注我们

西湖大学工学院

School of Engineering

Westlake University



西湖大学工学院SOE
西湖大学工学院致力于面向国家战略性新型产业发展重大需求的科技创新和人才培养,建立交叉学科与新兴学科为特色的应用科学、工程技术学科群,建成国家重大科学技术研究和拔尖创新人才培养的重要基地。
 最新文章