《经济管理学刊》| 潘淑君:基于深度学习的服装类商品特征识别研究

文摘   财经   2024-12-09 19:01   北京  

进入公众号 点击右上角“...”设为星标  防止内容走丢



本期文章



基于深度学习的服装类商品特征识别研究


Research on Feature Recognition Technology of Clothing Products Based on Deep Learning

原文刊载在《经济管理学刊》2024年第3卷第32024年9月出版)


作者

潘淑君,清华大学五道口金融学院

Shujun Pan (PBC School of Finance, Tsinghua University)

摘要


网络购物目前已成为主流的消费方式之一,各大购物网站及APP上存在数以亿计的待售商品,这些商品往往以图片或文字描述的形式展现在消费者面前。消费者搜索关键词、浏览商品图片,希望能够更加方便快捷地从海量商品中挑选出适合自己的商品,因此商品图片和商品的标题文字描述就成为待售商品的核心“特征”。因此,平台和商家针对所售产品,如果能够生成合适准确的商品描述,更全面、更准确地覆盖商品特征,将会提高购物环节的效率、提升消费者满意度,为平台和商家带来潜在的利益提升。本文考虑建立基于深度学习进行图像识别的相关模型,根据商品图片实现商品在不同标签维度下的分类,并将这些不同维度的标签进行组合,形成商品描述。本文选择的商品领域为服装类,数据来自于真实购物网站的商品图片和商品描述,首先将输入的图片进行预处理,然后构建多种卷积神经网络模型进行尝试,提取图片特征,并根据提取到的图片特征完成判别,最后在模型构建的基础上设计出相应的产品。借鉴本文研究,商家可以实现对于所出售商品的规范管理,为商品提供合理规范的特征描述,简化运营操作;消费者可以通过标签选择,更加方便快捷地挑选到所需要的商品;监管平台可以针对不同标签分类的商品实现动态监测,有利于构建良好的购物生态环境。

关键词

关键词:深度学习;卷积神经网络;商品分类;商品标签

KeywordsDeep Learning; Convolutional Neural Network; Product Classification; Product Labels

内容精要


、研究背景与意义

随着互联网技术的不断发展,网上购物早已走进我们日常生活的各个方面。线上下单、货比三家、送货上门,网购拥有着实体经济无法比拟的便捷性(孔祥梅和徐相阁,2008),早已深刻地改变了我们每个人的生活。淘宝、京东等国内头部电商平台目前已拥有海量用户规模,其线上销售的产品类型也在不断扩充,涉及我们生活的方方面面。2023年,淘宝电商仅在“双11”期间的销售额就达到2135亿元。在电商平台的交易过程中,消费者输入或点击自己感兴趣的商品类型及特征,浏览响应的商品网页,获取商品的一系列信息,这些信息往往包括商品图片、商品描述、价格、型号等,消费者综合各商品的信息,做出购买或略过的决定(陈汇行等,2010)。同时,这些商品信息也为销售市场和营销带来了更多的机会。在这样的背景下,各电商平台也逐渐成为海量数据的集中池,涵盖了包括商家、用户、商品、物流等全方位的数据信息,倘若能让这些数据在商业情景中发挥更大的价值,必将全方位赋能网上购物的各个环节,给商家、平台、用户带来全新的体验。 


图像识别是图像处理的主要用途之一,其过程是通过训练建立一系列模型,让计算机在所检测的图片中提取特征加以识别。图像识别在各个领域都有着巨大的应用价值与前景,如人脸识别、车牌号识别、疾病诊断、军事目标锁定等。随着人工智能技术的快速发展,基于深度学习的一系列图像处理与图像识别方法在算法性能上不断提升,在一系列计算机视觉领域取得了突破性进展,也逐渐更加广泛地应用于各个商业场景(卢宏涛和张秦川,2016)。现有的深度学习模型主要基于人工神经网络,通过模拟大脑认知的机理,建立神经元、神经网络的理论模型,进行分布式并行信息处理,从而解决各种机器学习问题。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而实现对于复杂高维数据的处理分析。


电商平台中包含着海量的商品图片,图像类型的数据维度较高,蕴含着极为丰富的信息,能够简单直观地展现商品情况,给商家和用户在买卖商品中创造便利,大大提升信息传递效率,成为目前电商销售过程中的主要内容载体,也成为消费者感知、了解所售商品的主要方式。可以说,在电商销售的过程中,由于缺乏线下的体验感,商家提供的商品图片就成为消费者对于商品感知的主要来源。同时,在商品的功能和效果方面,文字描述同样起到了至关重要的作用。消费者的购物环节往往包括以下流程:消费者在搜索框中输入所需商品分类、基本特征或品牌等关键词,在搜索所响应的商品中通过浏览图片、文字、价格等挑选最终商品。在购物环节中,商品的展示图片、文字描述、实际情况应当尽可能完全相符,做到图、文、物一致,倘若出现所收到商品与平台实际展示不符的情况,无疑将给消费者的购物体验带来不良影响,极大地损害用户的消费满意度与购买积极性。目前,各电商平台采取的商品搜索方式主要为文字输入与图片识别两种,绝大多数用户还是采用文字输入购买需求和商品特征的方法来搜索商品。基于以上逻辑,倘若能够通过一系列方法实现商品实物图片与文字信息之间的关联,通过商品图片自动生成商品标签及基本描述,就可以极大程度地便利商家对于商品的经营管理,同时有利于平台对海量商品数据的集中分析,保障商品实物图片与实际特征的一致性,并且在用户搜索的过程中强化图片、文字、商品实际特征之间的关联,提升购物体验。


在纷繁庞大的网购商品品类中,服装类商品以其购买的便利性、受众人群的普遍性占据了线上销售额的重要比例。服装早已成为人们在不同场合展现自我、享受生活的重要元素,亦是人们表达个性、追求爱好的重要方式。消费者线上挑选服装,可以在短时间内浏览大量不同风格、款式、品牌的服装,有效避免线下购买出现的商品尺码、款式不足和接触商品有限等问题,还可以根据商家所展示的模特试穿图片感受服装的上身效果。同时,服装类产品相较于其他商品类目,其穿着的视觉效果更加重要,因此图像数据对于服装类商品的销售具有更加重要的意义。在浏览服装商品的过程中,服装图片成为人们了解商品特征,并依据自我偏好进行选择的首要依据。


图1为神经网络进行图片识别的流程。我们所输入的图像,对于计算机来说是一个个像素点组成的画布,这些像素点属于低层信息。在进行模型构建与训练的时候需要对输入的图像数据进行处理,适应模型所需的训练要求。首先往往需要将不同大小、清晰度的图片进行统一,并将整数的像素数据处理为浮点型,进而对图像进行预处理。常见的预处理手段包括数据增强或图像修复,当图像中存在某一部分不够清晰或因摄制等原因导致图片不同区域之间对比度较弱等情况时,可以通过一系列手段将图片进行复原处理;还可以对图像进行降噪,去掉图像中的噪声,提升信噪比;此外,往往还需要对图片进行归一化处理,将所输入图像等比例缩小到[0, 1]或[-1,1]的区间内,便于深度学习模型后续进行特征提取与识别。特征提取也是深度学习模型中最核心的环节,特征的好坏对于模型的泛化能力有至关重要的影响。原始的像素点在画布上展现为一组组用于区分颜色及深浅的数字,分类器难以对这些庞大的数字直接做出判断,而是需要通过训练从测试数据中提取出这些数字中有用的部分,这构成了能够将一类商品图片与其他类别商品图片区分开的特征,对这些特征赋以不同的权重,分类器就可以通过计算做出分类识别的判断。特征提取的过程,可以理解成高维数据降维的过程,常用的方法有很多,传统方法如主成分法(PCA)、线性判别分析(LDA)、奇异值分解(SVD)等,均在机器学习领域有较为广泛的应用。如今随着遗传网络和其他理论的成熟,多特征融合的趋势逐渐呈现,特征提取的方法也开始相互结合使用。特征提取结束后,模型通过训练,进行多次迭代,形成一定的判断分类标准,将对输入的图像进行最终的目标分类。目前神经网络是一种最普遍的识别方法,能够对输入的图片在各个特征方面进行分类。



本文希望构建这样一个模型,即输入服装类商品的图片,通过深度学习算法进行解码、分析,提取图像特征,完成图片中所示商品各个维度、细分特征的识别分类,从而生成多个描述该商品的标签,进而得到较为完整的概括该服装实际情况的商品描述。通过构建这样一个深度学习模型,为后续在商业场景中的实际应用提供了可能。商家可以上传所售服装类商品的图片,模型可以自动为这张图片所示的商品打上相应标签,标记其为“长袖”“毛衣”“女装”“冬季”“韩版”等,这一系列关键词也可以自动组合形成该商品的文字描述,即“女冬季长袖韩版毛衣”,极大地便利了商家对所售商品进行管理,也为新商品的上架提供了便利。


不仅如此,构建这样的标签管理体系也可以为平台与消费者提供相应的便利。对于云集着海量商品图片的平台来说,这样的标签管理体系能够方便平台对于商品进行集中分类管理,可以有效精准提取相应商品,同时由于服装标签由模型自动生成,能够有效减少商家由于自行添加标签或关键字而导致的虚假营销行为;针对构建的服装商品标签体系,后续还可以进一步与推荐算法相结合,根据用户画像及其浏览、搜索筛选记录,更加精准地推荐其可能感兴趣的商品,从而针对不同用户群体进行精准营销,提升用户的购买体验。对于消费者来说,其服装类商品购买体验往往与搜索环节的精准度有关,建立合理的标签体系使得服装类商品有了更加准确客观的描述,能够极大地提升用户搜索所需服装与响应结果的匹配程度,帮助消费者更有效率地挑选到自己满意的服饰商品。


第二部分至第四部分详见原文,可点击“阅读原文”获取


五、结论与总结

本文利用深度学习研究服装类商品识别算法,包括构建服装类商品分类标签体系,并在各个标签维度利用卷积神经网络模型对服装类商品进行图像识别分类。经过调整参数、选择更优模型、调整学习率等优化训练过程后,模型在测试集中的准确率一般可以达到80%~90%。其中,在服装商品款式分类问题上,本文创新性地探究了两步分类法与直接细分类两种分类方式在商品款式识别的准确率方面的差异,发现采用“一步到位”,直接根据细分类标签对各款式服装进行标注会有更好的分类效果。在模型的基础上,本文设计了可应用于电商平台的识别系统,并将主要产品界面转化落地。产品对于商家、平台管理者与用户三方面均有广阔的应用空间,从商家角度,可以更加便利地上架、管理商品,并对所售各类别服装商品进行动态监测;从平台管理者角度,可以更集中地实现监管,有效避免图文不符与商家虚假营销等情况的出现;从消费者角度,可以根据服装商品的标签系统进行各分类的手动筛选,更直接、方便、迅速地浏览所需要的商品。


在模型的推广应用方面,本文研究的问题针对国内购物平台的服装类商品展开,其本质是从具体营销场景出发,对消费者的需求与偏好、厂商生产供应以及商家销售层面进行综合分析,设计出完善的商品标签体系,并针对所获数据集完成图片与标签的准确对应,进而构建合适的模型,实现基于产品图片自动标注标签特征的过程。训练好的模型可以与商家、平台管理者、消费者均实现关联,为商品管理、审核监测、购物环节带来便利。综上所述,针对其他类目与平台的商品,同样可以预先采集少量全系列的商品图片及特征信息,结合已有的分类方法,融合不同类目商品的代表特征,进一步优化标签体系,采用相似的逻辑设计构建模型,因此本文模型具备一定的推广价值。


本文仍有可优化和改进的方面。第一,本文所获得的数据集包括10万张以上服装类商品的照片,但每个模型的训练过程中都仅仅使用了2万张左右的照片,如果能够进一步扩大数据集,使用更多的图片进行训练,或许可以取得更好的效果。可以考虑收集更多图片进行训练,尤其是针对出现误判较多的品类纳入更多样本。本文模型在性别标签、款式分类标签维度的识别准确率可以达到80%~90%,但在服装风格与季节标签的识别上仍有可以提升的空间,后续可以考虑在这两项指标中进一步优化分类方法。同时,本文用于模型训练的数据集来自购物平台对于所输入关键词的响应图片,现有的服装商品分类标签、商家设定的流量投放方式都会从根本上影响本文所获数据的分布,并进一步影响模型的分类识别效果。针对这一问题,在后续改进中可以深入探索平台关键词搜索匹配的推荐算法,进一步梳理同义词、近义词标签在流量投放端的响应逻辑,提炼总结服装具体特征与其标签的对应情况,排除词语描述中存在的噪声和不准确描述带来的影响,优化服装风格标签分类。另外,还可以尝试将男女装风格分别归类,或将“风格”与“性别”标签进行联合训练,以及允许某些标签采用“多选”的分类方法进行优化等。


第二,在代码和算法方面,尽管本文在保证准确率的前提下选择了相对轻量型的网络,但是模型的训练速度仍然较慢,且在电商平台的应用中,商品整体的图片集是动态的,需要进行数据的实时收集、预处理,模型的参数也会随着数据集的更新不断优化,这都需要更快的训练速度,因此可以尝试更多轻量网络模型,提升网络在移动设备或是嵌入型设备上的计算性能,为未来在移动端的即时应用提供可能。


第三,考虑到在实际销售过程中,一件服装商品可能有多张配图,多角度的图片、服装局部细节的图片也可以从更多维度展现服装的真实样子,帮助消费者更好地进行挑选。基于此,后续模型改进可以考虑设计多图片联合训练模型,每件商品可以采用一张或一张以上的图片来进行训练,采用加权的方法计算服装属于各个分类的概率,尝试改进模型的准确率。


第四,最后,本文中所使用服装类商品的图片均采用图像预处理的方式将其降维成128×128的正方形图片。服装的主体大多数位于图片的中心,没有将图片完全填满,不同图片中服装占据的比例也会有所不同,如果能够在每张待识别图片中增加针对目标服装位置的标注框,如强调服装主体在图片中出现的位置,或在部分全身照中标注该商品是针对上半身、下半身还是全身服装进行识别,针对连帽、领子、花色等各种服饰的代表性特征也可以利用标注框进行额外标注,如采用Faster-CNN等模型,或许可以进一步实现服装款式的精准分类,在识别分类准确率上实现相应的提升。




Summary


With the continuous development of Internet technology,online shopping has already permeated various aspects of our daily lives,profoundly changing individual experiences and offering unparalleled convenience of traditional commerce. Several leading e-commerce platforms in China have a large number of users,continuously expanding the types of online products,covering various aspects of our lives. During the online shopping process,consumers input or click on the types and features of products they are interested in,browse the corresponding product pages,and obtain a series of information about the products. This information often includes product images,descriptions,prices,versions,etc. Consumers then integrate the information from various products to make decisions on whether to purchase or not. This information also presents new opportunities for product marketing. In this context,e-commerce platforms have gradually become centralized pools of massive data,encompassing comprehensive data information about merchants,users,products,logistics,and so on. If these data can be harnessed to unleash greater value in business scenarios,it will undoubtedly empower various aspects of online shopping,providing a new experience for merchants,e-commerce platforms,and consumers.
E-commerce platforms possess a vast amount of product images with high data dimensions,carrying rich information that can visually present product details,making it convenient for both merchants and users to sell and buy goods. Image data has become the primary content carrier in the current e-commerce sales process,playing a crucial role in how consumers perceive and understand the products being sold. Meanwhile,textual descriptions also remain key in conveying information about the functionality and effects of products. Therefore,if a connection can be established between physical product images and textual information through various methods,automatically generating product tags and basic descriptions based on product images,it can greatly facilitate the management of products for merchants and contribute to the centralized analysis of massive product data by the platform. This approach ensures consistency between product images and actual features,reinforcing the connection between images,text,and actual product features during searching,thereby enhancing the shopping experience.
Among the diverse categories of online shopping products,clothing products occupy a significant proportion of online sales due to their convenience in purchase and broad audience. Online consumers can quickly browse a large number of clothes in different styles,designs,brands from different stores,effectively avoiding problems such as limited sizes,styles,and limited exposure to products that may occur in offline shopping. Additionally,consumers can assess the visual effects of clothing based on model try-on images displayed by merchants. Clothing products,compared with other categories,rely more on their visual effects when being worn,making clothing images the primary basis for consumers' shopping decisions,and image data holds greater significance in the sales of clothing products.
This paper aims to construct a model that takes clothing product images as the input,using deep learning algorithms to decode and analyze them to extract image features. Then,we plan to recognize and classify the product in various dimensions and subdivisions,generate multiple tags to describe the product,and finally produce a comprehensive description of the actual situation of the clothing. Due to the diverse styles of clothing products,it is essential to construct a suitable tag system to classify clothing products effectively. This involves extracting and refining tags from a large number of clothing image,which are then categorized into two types:one describing the overall situation of the clothing product and the other describing the category to which the clothing belongs. In the subsequent model construction,we mainly face three challenges:Firstly,the collected images come from different merchants,with variations in lighting,angles,clarity,etc.,that may cause potential unrelated factors affecting the classification results. Secondly,the model needs to ensure the accuracy of classification recognition under the limited and uneven distribution of some clothing categories. Thirdly,the model may face challenges of larger data volume and dimensions in actual application scenarios,requiring consideration of computation time and costs. The first challenge can be alleviated by some methods such as adding image noise and image preprocessing. To address the latter two issues,considering the need for balancing the accuracy and efficient training time,we propose using the transfer learning framework to construct a convolutional neural network (CNN) model. By learning a large amount of image data first,the model can then focus on learning relatively fewer number of images of clothing products,obtaining accurate training results quickly. Thus,we only need to adjust the last layer of the CNN model and inherit the other pre-trained parameters from those frameworks. After comparing various CNN model structures,training effects and time costs,GoogLeNet,VGGNet,and ResNet were ultimately selected as the transfer learning framework.
Finally,through model training,accurate classification can be achieved on four groups of tags representing the attributes,styles,seasons,and clothing categories. We have then designed products for the subsequent application of the model,forming a label generation management system based on the recognition of product images,predicting classifications across various dimensions for input clothing images. This system can bring convenience to merchants,platform administrators and consumers.


原文引用:潘淑君. 基于深度学习的服装类商品特征识别研究[J]. 经济管理学刊, 2024, 3(3): 237-276.

点击左下角“阅读原文”,即可下载全文PDF

(苹果系统需复制到浏览器打开)

学刊订阅方式及更多论文下载,请登录学刊官网www.qjem.cn




*我们期待公众号原创稿件,来稿、合作、问题请联系:qjem-wx 推广内容如有侵权请您告知,我们会在第一时间处理或撤销;转载仅供思考,不代表《经济管理学刊》立场;其他平台任何形式转载请注明(来源:经济管理学刊 )。


《经济管理学刊》是机械工业信息研究院和北京大学联合主办、机械工业出版社出版的经管领域综合性学术刊物。本刊编委会汇聚了来自国内外著名高校和研究机构的近90名经济管理领域的杰出学者,并由北京大学光华管理学院院长刘俏教授担任主编。

诚挚邀请国内外专家、学者赐稿。相信在国内外学术共同体的努力下,《经济管理学刊》将成为汇聚全球重要经管理论和思想的平台,为中国的经管学术思想再添新翼,助力中国大地涌现出更多世界级的经济学和管理学研究与思想。

     投稿请登录本刊官网www.qjem.cn。

投稿咨询

刘欣欣:010-62747698

编辑部联系

朱鹤楼:010-88379001

侯振锋:010-88379708

邮   箱:qjem@qjem.cn

地   址:北京市西城区百万庄大街22号3号楼9层




学刊相关目录

2022年第1卷第1期目录、摘要

2023年第2卷第1期目录、摘要

2023年第2卷第2期目录、摘要

2023年第2卷第3期目录、摘要

2023年第2卷第4期目录、摘要

2024年第3卷第1期目录、摘要

2024年第3卷第2期目录、摘要

2024年第3卷第3期目录、摘要



文章编辑:侯曼迪;责任编辑:侯振锋;审核人:朱鹤楼

经济管理学刊
《经济管理学刊》立足于“站在中国看世界,站在世界看中国”,致力于以通行的学术规范和科学理性的研究方法,研究经管领域的科学、前沿问题,刊发经管领域最新的高质量学术成果,打造经管领域最具代表性的学术期刊和学术共同体交流平台。
 最新文章