研究成果|机器学习专栏：鲁东大学王丽丽教授等：基于视觉Transformer的哈希食品图像检索

美食 2024-12-17 09:13 上海

食品计算作为食品科学和计算机科学交叉学科的主要研究之一，旨在利用人工智能、数据处理与分析等技术对食物本身的营养特性、原材料和制造过程中的营养特征变化等信息进行数据化和整合，通过分析这些数据，可以解决感知、分类、检索、推荐以及预测等问题。食品图像检索，作为食品计算的一项基本任务，主要实现了“以图搜图”的功能，通过输入的查询图像从食品图像数据库中找到所有相似的图像。随着食品数据的快速增长，如何提高食品图像检索的速度也是需要考虑的问题。尽管卷积神经网络（CNN）在实现图像特征空间的全局表示方面已取得显著成果，但其精确度的提升仍依赖于网络深度的增加。

针对上述挑战，鲁东大学信息与电气工程学院的曹品丹、王丽丽*，中国科学院计算技术研究所的闵巍庆等基于预训练的视觉Transformer（ViT）模型提出了一种增强ViT的哈希网络（EVHNet）。通过与当前先进的网络模型AlexNet、ResNet50、ViT-B_32和ViT-B_16进行比较，并对改进的EVHNet模型进行了性能评估，以期得到提高食品图像检索的性能方法。

1 实验设置

本实验使用预训练的ViT模型，所有的输入图像都调整为224×224。实验中设置了EVHNet网络的两种变体，即EVHNet32和EVHNet16，它们的块大小分别为32和16。生成的哈希码长度分别为16、32 位和64 位。使用Adam优化器对所有模型进行150 个epoch的训练，批处理大小为32。测试每30 个epoch报告一次，且报告最佳结果。

2 性能分析

表3总结了在Food-101、Vireo Food-172、UEC Food-256 3 个数据集上的实验结果。本实验所提出的EVHNet32、EVHNet16模型与AlexNet、ResNet50、ViT-B_32和ViT-B_16模型进行了比较。结果在3 个检索框架（即GreedyHash、CSQ和DPN）下使用16、32、64 位哈希码计算。实验结果表明，EVHNet16在3 个数据集上的3 种检索框架下均表现出良好的性能。尤其是在16 位的低哈希码位数下，其效果更为显著。这主要是因为在特征学习过程中，模型更加侧重于主要特征的学习，即使在映射到低哈希码位数时会损失一部分特征信息，但映射后的低哈希码所包含的特征更具代表性，从而提升了检索性能。从表3还可以观察到，在3 种检索框架下，64 位哈希码的检索性能均优于16 位和32 位，这主要归因于深度哈希在将高维特征向量映射为低维的二进制哈希码时，一些干扰信息被丢弃，只保留了重要的特征信息。相比于16 位和32 位哈希码，64 位哈希码提供了更大的输出空间，这意味着它能够映射到更多的唯一输出，从而更好地保留深层特征信息，因此，64 位哈希码在提高检索精度方面具有显著优势。

图4详细地展示了在Food-101、Vireo Food-172、UEC Food-256数据集上，各种骨干网络（包括AlexNet、ResNet50、ViT-B_32、ViT-B_16、EVHNet32和EVHNet16）在16 位哈希码下的PR曲线。在DPN检索框架下，所提出的EVHNet32骨干网络在大多数情况下的表现优于AlexNet、ResNet50、ViT-B_32骨干网络。而且，EVHNet16骨干网络在3 个数据集上的表现都优于其他网络，实现了最佳性能。EVHNet16之所以能够实现更高的准确率，主要是因为它采用了更小的块（EVHNet16将输入图像切割成16×16的块，而EVHNet32将输入图像切割成32×32的块），这使得EVHNet16能够捕获图像中的更多细节信息，从而更好地保留原始图像的信息，提高了模型的性能。

3 消融实验

3.1 不同模块的消融实验

为评估模型中各个模块对实验结果的影响，选择使用ViT-B_16模型作为基准。考虑到Food-101数据集的丰富性和多样性，选择在Food-101数据集上对两个分支模块进行了实验，以确保结果的普遍适用性。

如表4所示，两个分支模块（LFEM、ASFM）都对检索性能产生了积极的影响。LFEM利用卷积结构，使网络捕捉食品图像中的细微差异，学习和提取更细粒度的特征，这使得最终映射的哈希码更具有代表性，从而提高了检索性能。ASFM通过多层类令牌特征的聚合，学习到了食品图像中丰富的语义信息，这种丰富的语义表示有助于提高检索性能。然而，当两个模块同时存在时，全局类令牌特征和局部特征的融合改善了最终特征的表示，使模型的综合性能达到最优。这进一步证实了卷积局部化交互的重要性和全局类令牌的互补性。实验结果充分证明了本研究提出的模块在食品图像检索任务上的有效性。

3.2 参数K的消融实验

本实验深入探讨了Transformer编码器的迭代次数K对实验结果的影响，并设计了一系列消融实验。值得注意的是，由于Transformer编码器本身的计算量较大，选择在K＝1、2、3、4、5的范围内进行。如表5所示，K影响了不同网络层中不同尺度的特征，对网络性能产生影响。在综合考虑各哈希码长度的检索精度后，发现K＝4时，实验结果达到了最佳。因此，选择K＝4作为实验的最佳参数。

结论

本实验针对食品图像细粒度和具有丰富语义信息的特点，提出了一种食品图像检索方法EVHNet，该方法有效结合了卷积结构的局部特征提取能力和Transformer的全局表达能力，构建了基于增强ViT的哈希食品图像检索，在3 个食品数据集上进行的相关研究验证了该方法的有效性。EVHNet包含两个分支模块：ASFM和LFEM。ASFM从多层迭代的Transformer编码器中收集类令牌，收集的类令牌包含了食品图像中不同尺度的语义信息。LFEM对Transformer编码器的最后一层输出进行了局部特征的增强，使得网络能够学习食品图像中更具代表性的特征，并生成具有改进的局部特征表示。增强的局部模块使模型能够自动学习所关注的主要特征，同时抑制不重要的特征。在融合阶段，将局部特征和全局语义特征进行相互补充，从而增强最终的特征表示，增强的特征表示包含了食品图像中的细粒度特征以及更深层次的语义特征。研究发现，相比于纯Transformer结构或者纯CNN结构，混合架构兼顾局部特征和全局特征，在食品图像检索领域表现出良好的潜力。

作者简介

通信作者：

王丽丽，博士，教授，硕士生导师，鲁东大学信息与电气工程学院院长，山东省计算机学会常务理事，“多模态数据智能分析与应用”山东省工程研究中心副主任，山东省数据开放创新应用实验室负责人、鲁东大学第五届校学术委员会委员、第五届校学位评定委员会委员，烟台市智慧城市创新实验室顾问。硕博期间就读于北京邮电大学电磁场与微波技术专业，毕业后任鲁东大学信息与电气工程学院教师，主要从事多媒体内容分析理解与应用、智能信息处理等方面的科研工作，已主持完成多项国家级、省部级科研项目，担任国家自然科学基金评审专家和《Concurrency and Computation: Practice and Experience》、《Drones》、《Food Science and Technology》等国际期刊审稿人，先后在《IEEE Photonics Journal》、《Applied optics》、《Sensors》等国际期刊发表SCI/EI检索论文50余篇，获批国家发明专利6 项，国际发明专利8 项，先后获山东高等学校优秀科研成果奖二等奖2 项。指导研究生参加“中国机器人及人工智能大赛”、“中国研究生智慧城市技术与创意设计大赛”等多个中国研究生创新实践系列大赛并获国奖、省奖若干项。

第一作者：

曹品丹，2022年获得河南科技大学计算机科学与技术学士学位，目前就读于鲁东大学计算机科学与技术专业硕士研究生，研究方向为食品计算和计算机视觉。

本文《基于增强视觉Transformer的哈希食品图像检索》来源于《食品科学》2024年45卷第10期1-8页，作者：曹品丹，闵巍庆，宋佳骏，盛国瑞，杨延村，王丽丽*，蒋树强。DOI:10.7506/spkx1002-6630-20231231-270.。点击下方阅读原文即可查看文章相关信息。

欢迎广大读者们对本文以及食品风味感知创新团队提出您的宝贵意见

联系方式：mffbest@126.com

长按二维码关注我们

食品风味感知创新

SJTU-MFFi，Future Food \x26amp; Flavor Perception Innovation

最新文章

JSFA | 不同酶水解技术对豆粕酸奶挥发性风味化合物和营养代谢物的影响

研究成果|上海应用技术大学冯涛教授等：机器学习在预测食品风味中的研究进展

研究成果|赵多勇研究员团队: 枸杞产地溯源模型构建与优化——产地、品种和年际因子对营养成分、活性成分、元素和稳定同位素组成的影响

研究成果|利用肽组学技术研究低盐加工对干腌火腿鲜味肽的影响

研究成果|揭示调节猕猴桃风味的分子网络

研究成果|上海理工大学王欣教授等：基于低场核磁弛豫特性的油茶籽油支持向量机掺伪鉴别模型的建立与评价

研究成果|机器学习专栏：鲁东大学王丽丽教授等：基于视觉Transformer的哈希食品图像检索

研究成果|利用化学蛋白质组学方法阐明植物天然产物的生物合成途径

人工智能和风味的未来/AI and the Future of Flavor

科普丨一键解锁食品包装袋上的《营养成分表》

MFFi新闻｜团队负责人刘源教授受聘《食品与生物技术学报》编委会委员

研究成果|西北民族大学丁波博士、刘红娜教授等：传统发酵牦牛乳制品中微生物群落及其与代谢产物相关性

研究成果|四川省食品发酵工业研究设计院邓维琴工程师等：红曲霉强化发酵对黄豆酱风味物质及菌群结构的影响

团队进展丨鲜味改变唾液蛋白质组：不同敏感度人群的差异研究

研究成果|河南中医药大学冯卫生教授等：山茶油干预的阿尔茨海默病小鼠尿液代谢组学分析

研究成果|福建医科大学傅武胜主任技师等：高效液相色谱法测定婴幼儿配方奶粉中1,3-二油酸-2-棕榈酸甘油三酯

研究成果|增强水果风味的代谢组学筛选

2024全球风味茶论坛

科普丨你闻到街上的肉桂香气了吗？

首届未来食品大会征稿中，欢迎投稿咨询！

研究成果|武汉轻工大学侯温甫教授等：充氮包装对冷藏过程中黄颡鱼鲜度、微生物菌群及挥发性风味物质的影响

研究成果|河北省食品检验研究院张岩正高级工程师等：迷迭香的化学成分及应用研究进展

行业见解:香草和甜味剂的创新

食品风味感知创新团队负责人刘源教授当选国家一级学会副会长

研究成果|中国传统红曲醋风味形成与微生物之间的内在联系

研究成果| 北方民族大学魏兆军教授：纳豆代谢变化和异黄酮生物转化改善营养分配和生物利用度

德克萨斯女子大学推出风味化学计划，以满足当地工业需求

哲斯泰｜GERSTEL 成功举办第二届“谈风论味”风味感官与创新学术研讨会!

JSFA | 膳食亚麻籽木酚二糖苷粗提取物通过调节瘤胃细菌群落和上皮发育条件来改善羔羊的生长情况

IJGFS丨分步蒸煮对鸡胸肉保水能力和蛋白质变性程度的影响

JSFA丨中国低盐固态发酵酱油与高盐稀态发酵酱油的差异：从滋味和香味活性性化合物到感官特征

IJGFS | 发酵过程中不同西瓜汁添加量西瓜酱细菌演替及风味成分综合分析

科普丨榴莲：别具一格的风味与多元营养

研究成果|中南林业科技大学吴伟教授、吴晓娟高级实验师等：多酚调控蛋白、多糖及蛋白-多糖复合物乳液中脂质-蛋白质共氧化研究进展

研究成果|北京工商大学张扬教授等：基于金属纳米粒子的活性包装复合膜在生鲜食品保鲜领域的研究进展

人工智能生产的烤牛肉风味

嗅觉与食欲联系的大脑机制被发现

团队新闻｜MFFi团队师生参加中国食品科学技术学会第二十一届年会

研究成果│红烧鸡风味形成的探究：基于电子鼻、GC-MS、GC-IMS 和 UPLC-Q-Exactive-MS/MS

研究成果|中国农业大学毛立科副教授：油凝胶替代脂肪的研究及在植物肉饼中的应用

先进的分析性感官关联--迈向对咖啡风味更好的分子理解

研究成果|香气持续的分子机制:从香气化合物与口腔黏膜的非共价相互作用到唾液和口腔细胞对香气化合物的代谢

JSFA丨加强型(mystelle)葡萄酒生产中的加速氧化:对化学和风味的影响

IJGFS | 不同时间和温度条件下发酵咖啡饮料的感官特征

JSFA | 蛋白质提取和质构化对豌豆蛋白气味活性化合物的影响

IJGFS丨不同烘烤阶段风干牛肉风味特性与脂质氧化的关系

科普丨葡萄酒的颜色从何而来

白酒风味轮的首次亮相

研究成果|四川轻化工大学邓杰博士等：浓香型白酒酒醅发酵过程中微生物群落结构演替及其与理化指标相关性

研究成果|华中农业大学黄茜教授等：蛋清水解物降血脂功效的体内/体外评价及其活性肽的筛选与鉴定

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉