研究成果|机器学习专栏:鲁东大学王丽丽教授等:基于视觉Transformer的哈希食品图像检索

美食   2024-12-17 09:13   上海  
食品计算作为食品科学和计算机科学交叉学科的主要研究之一,旨在利用人工智能、数据处理与分析等技术对食物本身的营养特性、原材料和制造过程中的营养特征变化等信息进行数据化和整合,通过分析这些数据,可以解决感知、分类、检索、推荐以及预测等问题。食品图像检索,作为食品计算的一项基本任务,主要实现了“以图搜图”的功能,通过输入的查询图像从食品图像数据库中找到所有相似的图像。随着食品数据的快速增长,如何提高食品图像检索的速度也是需要考虑的问题。尽管卷积神经网络(CNN)在实现图像特征空间的全局表示方面已取得显著成果,但其精确度的提升仍依赖于网络深度的增加。
针对上述挑战,鲁东大学信息与电气工程学院的曹品丹、王丽丽*,中国科学院计算技术研究所的闵巍庆等基于预训练的视觉Transformer(ViT)模型提出了一种增强ViT的哈希网络(EVHNet)。通过与当前先进的网络模型AlexNet、ResNet50、ViT-B_32和ViT-B_16进行比较,并对改进的EVHNet模型进行了性能评估,以期得到提高食品图像检索的性能方法。





1 实验设置 

本实验使用预训练的ViT模型,所有的输入图像都调整为224×224。实验中设置了EVHNet网络的两种变体,即EVHNet32和EVHNet16,它们的块大小分别为32和16。生成的哈希码长度分别为16、32 位和64 位。使用Adam优化器对所有模型进行150 个epoch的训练,批处理大小为32。测试每30 个epoch报告一次,且报告最佳结果。

2 性能分析

表3总结了在Food-101、Vireo Food-172、UEC Food-256 3 个数据集上的实验结果。本实验所提出的EVHNet32、EVHNet16模型与AlexNet、ResNet50、ViT-B_32和ViT-B_16模型进行了比较。结果在3 个检索框架(即GreedyHash、CSQ和DPN)下使用16、32、64 位哈希码计算。实验结果表明,EVHNet16在3 个数据集上的3 种检索框架下均表现出良好的性能。尤其是在16 位的低哈希码位数下,其效果更为显著。这主要是因为在特征学习过程中,模型更加侧重于主要特征的学习,即使在映射到低哈希码位数时会损失一部分特征信息,但映射后的低哈希码所包含的特征更具代表性,从而提升了检索性能。从表3还可以观察到,在3 种检索框架下,64 位哈希码的检索性能均优于16 位和32 位,这主要归因于深度哈希在将高维特征向量映射为低维的二进制哈希码时,一些干扰信息被丢弃,只保留了重要的特征信息。相比于16 位和32 位哈希码,64 位哈希码提供了更大的输出空间,这意味着它能够映射到更多的唯一输出,从而更好地保留深层特征信息,因此,64 位哈希码在提高检索精度方面具有显著优势。

图4详细地展示了在Food-101、Vireo Food-172、UEC Food-256数据集上,各种骨干网络(包括AlexNet、ResNet50、ViT-B_32、ViT-B_16、EVHNet32和EVHNet16)在16 位哈希码下的PR曲线。在DPN检索框架下,所提出的EVHNet32骨干网络在大多数情况下的表现优于AlexNet、ResNet50、ViT-B_32骨干网络。而且,EVHNet16骨干网络在3 个数据集上的表现都优于其他网络,实现了最佳性能。EVHNet16之所以能够实现更高的准确率,主要是因为它采用了更小的块(EVHNet16将输入图像切割成16×16的块,而EVHNet32将输入图像切割成32×32的块),这使得EVHNet16能够捕获图像中的更多细节信息,从而更好地保留原始图像的信息,提高了模型的性能。


3 消融实验

 3.1 不同模块的消融实验 

为评估模型中各个模块对实验结果的影响,选择使用ViT-B_16模型作为基准。考虑到Food-101数据集的丰富性和多样性,选择在Food-101数据集上对两个分支模块进行了实验,以确保结果的普遍适用性。

如表4所示,两个分支模块(LFEM、ASFM)都对检索性能产生了积极的影响。LFEM利用卷积结构,使网络捕捉食品图像中的细微差异,学习和提取更细粒度的特征,这使得最终映射的哈希码更具有代表性,从而提高了检索性能。ASFM通过多层类令牌特征的聚合,学习到了食品图像中丰富的语义信息,这种丰富的语义表示有助于提高检索性能。然而,当两个模块同时存在时,全局类令牌特征和局部特征的融合改善了最终特征的表示,使模型的综合性能达到最优。这进一步证实了卷积局部化交互的重要性和全局类令牌的互补性。实验结果充分证明了本研究提出的模块在食品图像检索任务上的有效性。

 3.2 参数K的消融实验 

本实验深入探讨了Transformer编码器的迭代次数K对实验结果的影响,并设计了一系列消融实验。值得注意的是,由于Transformer编码器本身的计算量较大,选择在K=1、2、3、4、5的范围内进行。如表5所示,K影响了不同网络层中不同尺度的特征,对网络性能产生影响。在综合考虑各哈希码长度的检索精度后,发现K=4时,实验结果达到了最佳。因此,选择K=4作为实验的最佳参数。

结论

本实验针对食品图像细粒度和具有丰富语义信息的特点,提出了一种食品图像检索方法EVHNet,该方法有效结合了卷积结构的局部特征提取能力和Transformer的全局表达能力,构建了基于增强ViT的哈希食品图像检索,在3 个食品数据集上进行的相关研究验证了该方法的有效性。EVHNet包含两个分支模块:ASFM和LFEM。ASFM从多层迭代的Transformer编码器中收集类令牌,收集的类令牌包含了食品图像中不同尺度的语义信息。LFEM对Transformer编码器的最后一层输出进行了局部特征的增强,使得网络能够学习食品图像中更具代表性的特征,并生成具有改进的局部特征表示。增强的局部模块使模型能够自动学习所关注的主要特征,同时抑制不重要的特征。在融合阶段,将局部特征和全局语义特征进行相互补充,从而增强最终的特征表示,增强的特征表示包含了食品图像中的细粒度特征以及更深层次的语义特征。研究发现,相比于纯Transformer结构或者纯CNN结构,混合架构兼顾局部特征和全局特征,在食品图像检索领域表现出良好的潜力。

作者简介




通信作者:

王丽丽,博士,教授,硕士生导师,鲁东大学信息与电气工程学院院长,山东省计算机学会常务理事,“多模态数据智能分析与应用”山东省工程研究中心副主任,山东省数据开放创新应用实验室负责人、鲁东大学第五届校学术委员会委员、第五届校学位评定委员会委员,烟台市智慧城市创新实验室顾问。硕博期间就读于北京邮电大学电磁场与微波技术专业,毕业后任鲁东大学信息与电气工程学院教师,主要从事多媒体内容分析理解与应用、智能信息处理等方面的科研工作,已主持完成多项国家级、省部级科研项目,担任国家自然科学基金评审专家和《Concurrency and Computation: Practice and Experience》、《Drones》、《Food Science and Technology》等国际期刊审稿人,先后在《IEEE Photonics Journal》、《Applied optics》、《Sensors》等国际期刊发表SCI/EI检索论文50余篇,获批国家发明专利6 项,国际发明专利8 项,先后获山东高等学校优秀科研成果奖二等奖2 项。指导研究生参加“中国机器人及人工智能大赛”、“中国研究生智慧城市技术与创意设计大赛”等多个中国研究生创新实践系列大赛并获国奖、省奖若干项。





第一作者:


曹品丹,2022年获得河南科技大学计算机科学与技术学士学位,目前就读于鲁东大学计算机科学与技术专业硕士研究生,研究方向为食品计算和计算机视觉。










本文《基于增强视觉Transformer的哈希食品图像检索》来源于《食品科学》2024年45卷第10期1-8页,作者:曹品丹,闵巍庆,宋佳骏,盛国瑞,杨延村,王丽丽*,蒋树强。DOI:10.7506/spkx1002-6630-20231231-270.。点击下方阅读原文即可查看文章相关信息。

欢迎广大读者们对本文以及食品风味感知创新团队提出您的宝贵意见

联系方式:mffbest@126.com

长按二维码关注我们

食品风味感知创新
SJTU-MFFi,Future Food \x26amp; Flavor Perception Innovation
 最新文章