ACM MM2024于10月27日-11月1日在澳大利亚墨尔本召开。我校计算机学院吕建成教授团队2022级博士生邬鸿杰、2023级博士生牛超群在会上分别报告了他们的研究成果(oral论文)。ACM MM是多媒体及多模态领域的国际顶级会议,也是中国计算机学会收录的计算机图形学与多媒体领域A类会议(CCF-A)。ACM MM 2024共计收到4385篇投稿,录用率约为26.20%,其中Oral论文仅174篇(3.97%)。
2022级博士研究生邬鸿杰、何霖超为共同第一作者,吕建成教授为通讯作者的论文《Diffusion Posterior Proximal Sampling for Image Restoration》提出了一种新颖的扩散模型采样算法。该方法在处理图像修复和图像逆问题时,在计算开销几乎不变的前提下,显著提升了生成结果与观测数据之间的数据一致性与感知一致性,为应用通用视觉大模型解决特定生成任务提供了新的思路。
论文项目主页:
https://dpps.pages.dev/。
2023级博士研究生牛超群为第一作者,吕建成教授、李媛副教授为共同通讯作者,录用的ACM MM Oral论文《Neural Boneprint: Person Identification from Bones Using Generative Contrastive Deep Learning》,首次提出使用“神经骨纹”作为个体身份特征和使用胸骨多模态图像进行身份识别的新范式,突破了无名尸体高度腐败、缺乏有效生物检材、仅有单个样本导致的尸源难检索、模态难对齐、模型极易过拟合的问题。方法效果远超日本宫崎大学团队,成为了利用尸体胸骨识别身份的国际最高基准,首次实现了人工智能方法在该任务上对人类专家的超越,首次完整验证了大规模使用胸部骨骼进行尸体身份识别的可行性。
论文一
Diffusion Posterior Proximal Sampling for Image Restoration
论文1汇报现场
背景:扩散模型已在生成高质量样本方面展现了显著的效力。当前基于扩散的图像复原算法利用预训练的扩散模型以获取数据先验,但这些方法依然保留了无条件生成过程的范式。由于在每次生成步骤中引入了随机噪声,这种方法通常导致生成结果的平滑化。为了解决这一问题,本文提出了一种改进的扩散模型采样方法,专注于提高生成结果与测量样本的一致性和数据稳定性,从而增强图像复原的性能。
方法:本文提出的“扩散后验近邻采样(Diffusion Posterior Proximal Sampling , DPPS)”方法,通过在每一步生成中从多个候选样本中选择与目标一致性更高的样本,有效减小了生成过程中引入的不确定性。该方法首先引入含测量信号的初始化,并结合候选样本筛选策略,逐步将生成过程向目标收敛。此外,DPPS使用自适应的采样频率,根据信噪比调整候选样本数量,从而在保持高生成质量的前提下降低计算开销。文中理论分析表明,该方法能够有效降低扩散模型生成过程中的不确定性,提升生成过程的稳定性。
传统扩散采样方法与本文提出的近邻采样方法对比示意图。传统采样方法中,每一步采样均从预测分布中随机选取,导致生成不稳定;本文的近邻采样方法,每一步选择与测量样本一致性更高的候选样本,显著提高生成过程的稳定性。
实验:本文在多种图像复原任务上验证了DPPS的有效性,包括超分辨率、去模糊和图像补全实验。部分实验结果如下:
DPPS在不同图像复原任务上的效果对比
图像复原效果随样本数量n变化效果分析
从实验结果中可以看出,DPPS在多个图像复原任务上表现出色。相比传统方法(如DPS和DiffPIR),DPPS在生成质量上有显著提升,在峰值信噪比和感知一致性等指标上取得了更优异的性能。且随着选择样本数量n的增加,DPPS生成的图像具有更好的细节和质量。更多实验结果请参阅论文。
总结:本文提出了一种新型的扩散后验近邻采样方法,解决了传统随机采样方法在图像复原任务中引入不确定性的问题。DPPS通过选择测量一致性更高的候选样本,显著提升了生成结果的稳定性和质量,为基于扩散的图像复原算法提供了新思路
论文二
Neural Boneprint: Person Identification from Bones Using Generative Contrastive Deep Learning
论文1汇报现场
论文2海报张贴
背景:在事故和刑事调查中,法医人员身份识别至关重要。如果尸体严重腐烂、白化或烧焦,现有的基于软组织(人脸、虹膜、指纹或掌纹)的方法可能无效。DNA检测方法也极具挑战性,除技术困难、时间和财务成本限制外,DNA关键点位可能会随时间降解,且若是该个体或近亲的DNA没有预先测序和存储,DNA检测方法难以发挥作用。一个重要但易被忽视的基本事实是:骨头通常可以保存很长时间。这引出了一个自然的问题:我们是否可以通过骨骼数据实现个体身份识别?对于尸体,拍摄CT、获取其VRT图像进行分析是法医学的常用分析方法。对于个人,胸片(CXR)是常规的体检项目,特别是在新冠疫情后,几乎每个人都曾拍摄过胸片。
方法:在本文中,我们以胸骨为例使用其图像数据探索神经骨纹(Neural Boneprint,NBP)的存在及可用性,具体使用VRT图像与CXR图像实现个体身份特征的提取与识别。本任务中存在几大挑战:
(1)小样本:每一类(每个个体)仅有1张VRT图像和1张CXR图像;
(2)类内差异大:模态差异、拍摄体位差异带来的非线性形变、语义差异导致同一人的不同图像差异很大;
(3)类间差异小:不同人的相同模态照片差异很小。
本文提出一套生成式对比学习框架解决所涉任务,具体提出三个模块来学习神经骨纹:
(1)交叉模态翻译:在保留个体身份信息的约束下,CXR与VRT图像分别被转换成彼此的模态来弥补模态差距,提高数据的完整性。
(2)跨模态融合:使用基于对比学习的双重重构网络融合骨骼身份的细粒度表示,并用其优化类间和类内距离以提取NBP。
(3)NBP库建立与检索:利用CXR数据构建NBP库。获取待检索VRT的NBP并与库中NBP进行匹配以进行身份识别。
方法框架
实验:在真实临床数据上的实验结果验证了NBP在身份识别中的有效性,其Rank-50识别准确率达到84.79%。
顶部:我们和其他替代方法在学习骨骼的神经特征以进行身份识别方面的最终表现。查询是VRT图像,匹配池是由CXR图像库构建的NBP库。底部:引入CMT步骤的消融研究(仅采用CXR,仅采用VRT,或两者同时采用)。值越高越好。
年龄、性别公平性分析
部分缺失骨架模拟研究
CMC曲线
总结:本文提出一种新的个体身份识别视角:从骨骼图像数据中学习神经骨纹(NBP)作为特征标识符。同时证明了NBP作为一种类似生物识别的标识符的潜力,补充了传统法医方法。
分享
点赞
在看