经过大规模预训练的扩散模型(Diffusion Models)可以在各种专业场景中, 根据用户输入的文本提示来生成高质量的图像,这一亮眼表现得益于扩散模型框架准确地学习了训练数据的视觉语言表示 。基于这一点,本文作者提出,可以将扩散模型作为全新的视觉数据挖掘工具(Data Mining Tools)。 假设一个条件扩散模型可以在某个特定的数据分布上生成良好的图像,就可以基于该模型定义符合当前数据分布的典型性度量(typicality measure) 。这种度量可以涵盖多种层次和角度的语义概念, 因而可以准确的捕获到数据中的典型视觉元素,例如地理位置、时间戳和语义标签等数据挖掘领域比较关注的方面 。 此外,本文通过大量的实验表明,基于扩散模型的数据挖掘相比传统方法具有更优秀的扩展能力,因为其不需要明确的比较所有视觉元素对, 同时基于扩散模型特有的zero-shot能力,这种方法可以灵活的适应到多个不同风格、不同分布的下游数据集中,从而实现更高效的数据挖掘效果 。本文的研究团队来自法国埃菲尔大学和UC伯克利,目前已被计算机视觉顶级会议ECCV 2024录用。 论文题目:
Diffusion Models as Data Mining Tools
论文链接:
https://arxiv.org/abs/2408.02752
代码仓库:
https://github.com/ysig/diff-mining
项目主页:
https://diff-mining.github.io/
一、引言
视觉数据挖掘旨在发现大型视觉数据集中的各种模式,例如从街景图集、人脸历史图像或汽车照片中发现独特的数据分布。先前传统的视觉数据挖掘方法主要依赖于判别式的技术,如聚类和对比学习,这类方法通常需要进行大量的成对比较,无法很好地扩展到大规模数据集中。
相比之下,近年来兴起的生成式模型在图像合成等任务中取得了突破性进展,可以对海量的视觉数据进行预训练,并将其隐式存储在权重中 。本文方法的核心灵感在于,将生成式扩散模型转变为一种可扩展的视觉数据挖掘方法,用来识别海量数据中的典型视觉元素。 上图展示了本文方法在各种数据集上挖掘典型视觉元素的效果,具体来说, 作者首先将带有图像级标签(例如时间、地理或场景标签)的数据作为输入来微调条件扩散模型,随后使用微调后的模型对图像计算典型性度量,选择其中最典型的图像块,并使用扩散模型提取其特征来进行聚类,进而挖掘得到视觉元素 。
上图从左到右分别展示了10,130 张带有 1920-1999 年制造年份的汽车照片、24,874 张 19 世纪至 21 世纪的肖像、344,224 张带有国家名称的街景图像以及 1,803,460 张带有描述性名称的场景图像,本文方法对这些数据集提供了高质量的挖掘结果,并且可以按照年代、地理信息等细节属性进行展示。
二、本文方法
2.1 扩散模型基础 扩散模型是近年来兴起的一类生成式模型, 它们通过将噪声逐步转换为目标分布来实现图像合成。在训练过程中,扩散模型需要学习一个噪声退火过程 ,即将原始图像 以随机噪声 逐步混合,形成越来越模糊的中间扩散状态:
其中 是随时间而变化的噪声混合系数。扩散模型 需要被训练去预测这个噪声图像 ,相当于预测原始图像 。 这种迭代的退火过程使得扩散模型能够学习到复杂的多模态数据分布 ,扩散模型的核心损失函数如下所示:
除了基础的扩散模型, 本文的方法主要建立在潜在扩散模型(Latent Diffusion Model, LDM)的基础之上,相比较而言,LDM不是直接对原始图像建模,而是在一个预训练的编码器潜在空间上建模 ,这样可以大幅降低模型复杂度,从而提高扩展性。 2.2 典型性度量 为了利用预训练扩散模型实现视觉数据挖掘, 本文提出了一种基于扩散模型的“典型性”度量,用于度量某个视觉元素与特定标签(如地理位置、时间戳等)的相关性,该度量通过比较在有标签条件和无标签条件下,扩散模型重建该视觉元素的能力 ,从侧面反映了标签对模型合成的影响程度,具体计算形式如下:
其中, 表示在时间步 下,在有标签 的条件下重建图像 所产生的损失, 为无标签条件。 从直观上理解,典型性度量可以实现这样的效果:如果一个视觉元素(如窗户、车头灯等)是某个类别(如地理位置、时间戳)的典型特征,那么在有该类别标签的条件下,扩散模型应该能更好地重建和恢复出这个元素,即损失会更小 。因此,通过比较有标签和无标签条件下的重建损失,就可以度量一个视觉元素的典型性。 2.3 视觉元素挖掘 在得到典型性度量后,作者开始对各种数据集执行数据挖掘,数据挖掘的步骤如下:
对输入图像计算图像块典型性度量: 本文方法的处理单元并非整张图像,而是首先在图像块(patch)级别计算典型性度量,这是因为图像通常包含多个视觉元素, 块级别的分析可以更细粒度地识别出具有代表性的局部区域 。
选择最具代表性的视觉元素: 对于每张图像,本文方法从中选取5个最具典型性的非重叠块,然后从所有图像中挑选出1000个最具代表性的视觉元素。
聚类视觉元素: 为了对这些视觉元素进行总结和可视化, 本文采用了k-means聚类的方法。在聚类前,首先使用DIFT[1]特征对视觉元素进行嵌入 。DIFT是一种针对扩散模型的特征提取方法,可以很好地捕获视觉内容的语义。聚类结果按照中位典型性值进行排序,并选取前6个最具代表性的簇进行展示。
相比传统基于成对比较的数据挖掘方法,本文的方法只需利用扩散模型的内部表示计算典型性,无需进行成对比较,因此能够很好地扩展到大规模的数据集上。
三、实验效果
本文的实验在4个不同类型的数据集上进行, 包括汽车数据集CarDB、人脸数据集FTT、街景数据集G3和场景数据集Places365 。其中CarDB包含10,130张1920年到1999年不同年代的汽车照片,带有创造年代的标签。这个数据集具有挑战性, 因为汽车在不同角度、环境下拍摄,提取与时间相关的视觉元素并不容易 。FTT人脸数据集包含24,874张19世纪到21世纪人物肖像图像,每个年代大约有1,900张图像。这个数据集可以用于挖掘不同时期人物形象的时尚特征。G3街景数据集包含344,224张来自全球范围内的街景图像, 作者选取了8个人数最多的国家(美国、日本、法国、意大利、英国、巴西、俄罗斯和泰国)以及尼日利亚和印度两个样本较少的国家进行分析 。该数据集的挑战在于需要识别出各国特有的地理元素。Places365场景数据集包含1,803,460张365种场景类型的图像,本文使用了验证集,每种场景类别100张图像。该数据集涵盖了丰富的场景类型,可以用来评估所提出方法在复杂场景中的适用性。 3.1 典型性度量评估 作者首先对本文的核心概念典型性度量进行了评估,实验效果如下图所示,作者比较了最具典型性、最不典型以及随机选取的视觉元素。可以看到, 最具典型性的视觉元素更能反映出与数据标签相关的特征,如汽车的车灯造型、人脸的眼镜款式、街景的建筑元素等。而负典型性(−T)和随机选取的结果则缺乏这种语义相关性 。 3.2 视觉元素挖掘可视化 作者分别展示了本文方法在上述四个数据集上的代表性视觉元素簇,以汽车数据集CarDB为例,本文的结果展示了不同年代汽车设计的演变特点, 如1920年代的踏板、1930年代的引擎罩、1980年代的不同设计风格等。这些发现与汽车设计史的认知高度一致 。 类似地,在人脸数据集FTT中,本文的挖掘结果表明,眼镜造型是区分不同年代人像的一个重要特征,此外还发现了其他时尚元素,如1920年代的飞行员眼镜、1940年代的军帽等。 在街景数据集G3上,本文的方法能够提取出各国家特有的建筑元素,如美国的双开窗、法国的屋顶天窗、泰国的遮阳走廊等。这些发现与地理网站介绍的特色元素高度吻合。 在场景数据集Places365上,尽管每个场景类别包含了不同类型的物品, 但本文的方法仍然能够提取出具有代表性的关键视觉元素,如篮球场上的球筐、实验室的试管等。这说明该方法具有较强的概括能力 。 可以看到,这些挖掘结果不仅直观地总结出了各个数据集的视觉特点,而且与人工分析的结果高度吻合。 3.3 跨地理位置的视觉元素分析 除了对大规模数据集进行常规形式的数据挖掘之外, 本文的方法还可以实现更深层次的数据分析应用,例如使用扩散模型进行跨地理位置的图像翻译,用来分析不同地理位置下视觉元素的变化趋势 。具体来说,作者首先使用Plug and Play[2]技术,将1000张图像从某个初始地理位置 翻译到其他9个国家 ,得到100000张空间“并行”图像。这确保了在不同位置下,图像的场景元素保持一致。随后作者重新定义了一个共同典型性(co-typicality)度量:
其中 表示将图像 从位置 翻译回 的典型性。这个度量反映了一个视觉元素在不同位置的保持程度。 随后就可以根据该度量选取具有高共同典型性的视觉元素,并使用k-means聚类进行总结 ,聚类结果如下图所示。 从上图中可以看到,这种跨地理位置的共同性分析能够发现一些跨地理位置保持一致的视觉元素,如路灯、栅栏等。通过对比这些元素在不同位置下的变化趋势,能够更深入地理解数据的地理特征。这为地理理解等领域提供了新的分析思路。 3.4 疾病定位 本文方法还可以在X光等医学数据集上,利用典型性度量进行疾病部位的定位 。作者首先在一个医疗X光图像数据集上,微调扩散模型。该模型能够根据疾病标签来生成对应的X光图像。作者发现,这个模型的典型性评分 能够自然地反映出疾病部位的特征。如下图所示, 在胸部X光图像中,典型性评分高的区域与实际疾病部位高度吻合 。 这一现象表明,扩散模型在学习视觉数据表征的过程中, 能够自动地提取出与特定任务(如疾病诊断)相关的关键视觉元素 。这为利用生成式模型进行医疗影像分析等应用开辟了新的可能性。 四、总结
本文提出了一种将扩散模型用作视觉挖掘工具的新方法, 这种方法巧妙地利用了生成式模型学习到的丰富特征,并基于这些特征定义了一种新型的典型性度量,典型性度量可以在保持很强扩展性的同时,有效地发现大规模视觉数据中有意义的视觉模式 。这种"分析即合成"的数据挖掘思路不仅在实验验证中展现了良好的性能,而且在实际应用中也显示出了广泛的价值。特别是在跨地理位置的视觉元素分析和医疗影像分析等场景中,本文方法提供了全新的思路和技术路径,值得进一步探索和应用。 参考 [1] Tang, L., Jia, M., Wang, Q., Phoo, C.P., Hariharan, B.: Emergent correspondence from image diffusion. NeurIPS (2023)
[2] Tumanyan, N., Geyer, M., Bagon, S., Dekel, T.: Plug-and-play diffusion features for text-driven image-to-image translation. CVPR (2023) llustration From IconScout By IconScout Store “AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区( www.techbeat.net )。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj ) 投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿 ”二字,获得投稿说明。
将门 是一家以专注于 数智核心科技领域 的 新型创投机构 ,也是 北京市标杆型孵化器 。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。 将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。 如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务, 欢迎发送或者推荐项目给我“门”: