AIA
近日,福建理工大学——工业控制与数据分析福建省高校重点实验室,东南大学,中国科学院大学和中南大学联合在国际期刊Artificial Intelligence and Applications (AIA,eISSN: 2811-0854)上发表了题为《利用新型机器学习分类、数据可视化和分析方法预测红葡萄酒的质量》的论文。
消费者和葡萄酒行业对葡萄酒质量的关注日益增加。传统上,葡萄酒专家通过品尝来判断其质量,但这过程费时。因此,需要基于特定关键特征来预测葡萄酒质量,以简化这些任务。技术的发展,如机器学习方法,已经用计算方法取代了人工评估。然而,一些方法由于准确性低且难以解释而受到批评。本文引入了一种堆叠集成方法,与逻辑回归(LR)、决策树(DT)、梯度提升(GB)、自适应提升(AdaBoost)和随机森林(RF)等分类技术相比,表现出更优越的预测性能。这一评估基于相同条件下的分类指标,如准确率、精确率、召回率和F1评分。此外,还使用了异常检测算法来识别优质或劣质葡萄酒,但其结果不如分类方法准确。最后,通过特征分析研究评估了每个特征对模型性能的重要性。
导 言
虽然已经进行了一些关于葡萄酒质量的研究,但仍有改进余地。线性回归是一种在各个领域进行预测的实用方法。通过数据分析发现,在所有参数中,酒精含量的变化最为显著。酒精浓度越高,葡萄酒品质越好,密度越低。随机森林(RF)、支持向量机(SVM)和k近邻(KNN)是众所周知的分类方法,因在各种数据场景和预测函数中的适应性而受到高度重视。这些算法在对复杂模式进行分类和影响集体智能方面具有很强的作用。研究团队采用主成分分析选择相关特征,并确定随机森林算法作为分类器,执行标准基准技术,产生有利的结果。
尽管机器学习技术在处理异常值、缺失数据和噪声信息方面表现出了显著的能力,但一个显著的缺点是它们倾向于不透明地工作,类似于“黑箱”方法。此外,经典决策树面临缺乏人类解释的问题,而人工神经网络和支持向量机的准确率较低。
这些方法有利于葡萄酒行业业主评估葡萄酒质量。好酒的主要特征包括“pH值、酒精密度和其他酸”。评价葡萄酒的品质,首先要考虑理化测试,其次是感官测试。
材料与方法
本文使用的数据集包括白葡萄酒和红葡萄酒。白葡萄酒有4898个样品,红葡萄酒有1599个样品,两种葡萄酒各有12个理化变量,质量等级分为11个,从0(非常差)到10(非常好)。可变值的大振幅,如硫酸盐(0.3-2)与二氧化硫(1-72),是一个重要的缺陷。线性变换是处理这类问题的一种方法,包括通过将所有输入值除以最大变量值来缩放所有输入值。
图1说明了该过程从收集和分析数据集开始,在这一初始步骤之后,执行关键的数据预处理阶段,以确保数据集的适用性,以供进一步分析。在本研究中,该方法将数据集分为两个不同的子集,其中80%分配给训练,其余20%保留给测试。这种80-20分割是机器学习中常见的做法,以平衡训练和测试,以获得可靠和合理的结果。最后,根据具体的性能指标对这些方法的性能进行全面评估。这种系统的方法确保模型和方法得到彻底的验证,并对其性能进行定量评估,从而为决策和进一步修改提供信息。
图1:研究的总体设计
本文提出了一种由逻辑回归、决策树、梯度提升、自适应提升和随机森林混合组成的新的叠加框架,通过汇总每个模型的预测来生成一个新特征。交叉验证应该总是伴随着模型叠加,以避免模型与训练数据的过度拟合。优点是它可以结合几个高性能模型的能力来创建预测,在分类或回归挑战上优于集合中的任何单个模型。如图2所示,第一级模型,通常称为元模型,结合了由基本模型生成的预测。元模型是使用基本模型的样本外数据的预测来训练的。
图2:叠加系综的建模过程
以下步骤将有助于理解这个过程;在所提出的方法中,不同的分类模型通过提取有价值的特征来处理原始数据中的复杂和不可预测的特征。该方法包括两层:第一层中,决策树(DT)、梯度提升(GB)、自适应提升(AdaBoost)和随机森林(RF)模型利用综合训练数据集进行预测,以控制每个分类器的优势。然后将第一层的预测结果输入到第二层的逻辑回归(LR)模型中,通过交叉验证来预测红酒的质量。此方法包括四个关键阶段:基于合理性的特征工程和选择、数据集划分、最终预测和评估,如图3所示。
图3:建议采用的方法
数据分为两部分:训练集和测试集,类似于K折交叉验证。训练数据进一步分为K个部分。堆叠方法的第一层充当一个高度复杂的非线性特征转换器,展现出对不同特征的异质表示。第一层基础分类器必须满足特定标准,以确保有效地从原始数据中提取特征,包括高准确性和多样性。研究选择决策树、梯度提升、自适应提升和随机森林作为第一层主要模型,它们具有不同但有效的学习方法。尽管这些模型的建模理念不同,但它们因在交叉验证中表现出色并实现最佳准确性被选中。
第二层模型使用训练集的预测结果作为特征,并应用于测试集以生成最终预测。这意味着预测任务涉及估计连续的数值,使其适用于目标变量具有无限可能结果范围的应用场景。由于第二层通过复杂的非线性转换提取特征,因此输出层中使用过于复杂的分类器变得不必要。在第二层使用逻辑回归(LR)提供了一个简单的结构并具有额外的优势,将LR整合到第二层有助于防止过拟合,从而进一步提高模型的鲁棒性。
基于我们的数据,可视化过程可以用来充分解释数据集。可视化还显示了可用于获取关键信息的数据的图形化表示。考虑到图4,很明显,数据集很容易分散在特征上。直方图提供了对分布峰的位置、分布的对称性或偏斜度以及异常值的存在的见解。直方图箱图用于可视化所有特征,以检查偏度和对称性。
图4:数据可视化
正如在分析相关热图时所做的那样,我们必须展示一个相关图,以检查哪些项目与因变量的相关性更强,哪些项目与因变量的相关性更弱。从图5中可以清楚地看出,柠檬酸的组成随着葡萄酒质量的提高而增加。相反,当我们提高葡萄酒的质量时,氯化物的成分也会减少。此外,葡萄酒的质量越高,硫酸盐含量越高。
图5:酒精质量与数量关系图
为了实现本研究的目标,提出了一种最有效的机器学习分类技术方法作为第一层。这是一种监督式机器学习技术,旨在为以前未见过的数据点分配特定的类别。在预测阶段,提供了带有输入参数和目标属性的模型,以帮助其决策过程。需要特别指出的是,所有实际应用和实验过程都是使用Python完成的,Python拥有丰富的库和工具生态系统。为了确保开发的准确性和可靠性,研究采用了以机器学习和预测分析多功能性著称的Sklearn库,以便于一致的开发和符合最佳实践的分析。
结果分析与讨论
为了证明我们方法的有效性,我们进行了比较分析,将我们的方法与基准模型和堆叠集成进行比较。这一评估突出了我们提出的技术的优越性及其比现有方法更好的潜力。对比研究基于逻辑回归、决策树、梯度提升、自适应提升和随机森林和Stacking集成学习的训练和测试结果。堆叠集在训练和测试方面表现优异,其训练精度为1.0(100%),测试精度为0.85(85%),优于所有基准模型。随机森林和决策树模型存在过拟合问题。
图6显示了特征在评估葡萄酒质量中的重要性。分析表明,氯化物是影响葡萄酒品质的最关键因素,不仅影响葡萄酒的口感,还影响葡萄酒的质地和结构。总二氧化硫似乎是第二个最重要的特征,与氯化物有一定的相关性。值得注意的是,我们的研究结果强调“游离二氧化碳”是我们分析中影响最小的变量。这一指标衡量的是整个酿酒过程中二氧化硫(SO2)的使用量。它们的主要目的是防止氧化和抑制微生物生长。
图6:功能的重要性
使用离群值检测算法检测少量优质或劣质葡萄酒
考虑到数据集的质量,很明显这些类是有序的,并且表现出不平衡。例如,与优质或劣质葡萄酒相比,正常葡萄酒的分布存在显著差异,这表明数据集中不同质量水平的代表不均匀。离群值检测算法可以识别少量异常或次等葡萄酒。使用给定的1599个葡萄酒质量实例对模型进行训练,然后使用训练好的模型从零开始使用支持向量机进行葡萄酒质量预测。支持向量机是一种完善的监督学习模型和相关算法。这些支持向量机模型主要用于分类和回归任务中的数据分析。它们擅长描绘决策边界,并在各种应用中被证明是有效的,使它们成为机器学习和预测分析的通用工具。在本研究中,需要使用这两个属性将给定的数据集分类为优质葡萄酒和劣质葡萄酒。支持向量机模型可以准确地区分这两类。
✦ ✦ ✦
结 论
本文旨在使用机器学习算法对红酒的质量进行分类、数据可视化和分析。数据分析显示,各特征之间高度相关。大多数特征中,随着红酒质量的提高,柠檬酸的含量也会增加;相反,氯化物的含量则会减少。此外,硫酸盐的含量随着红酒质量的提高而增加。正如分析所述,“此分析为预测质量属性的重要性提供了全面的理解,显示出相比传统方法节省的时间和成本。”本文通过综合研究应用了多种分类机器学习算法来预测红酒质量。结果显示,堆叠集成方法在此特定背景下表现出优越性和有效性,显示了其在更准确和可靠的红酒质量预测中的潜力。
相反,使用异常检测算法来识别优质或劣质红酒时,结果的准确性随着时间的推移而下降。此外,还进行了特征分析研究,以评估输入变量对模型性能的重要性。未来,将提出深度学习和其他机器学习算法,以比较表现最好的模型。此分析将帮助行业根据特定属性预测不同类型红酒的质量,并生产出优质产品。
✦ ✦ ✦
文章链接
https://ojs.bonviewpress.com/index.php/AIA/article/view/1999
作者介绍
Jovial Niyogisubizo
福建理工大学,工业控制与数据分析福建省高校重点实验室
Jean de Dieu Ninteretse
东南大学
Eric Nziyumva
福建理工大学,工业控制与数据分析福建省高校重点实验室
Marc Nshimiyimana
东南大学
Evariste Murwanashyaka
中国科学院大学
Erneste Habiyakare
中南大学
机构简介
福建理工大学,工业控制与数据分析福建省高校重点实验室
工业控制与数据分析福建省高校重点实验室(Fujian Provincial Universities Key Laboratory of Industrial Control and Data Analysis )是福建省教育厅批准的福建省高等学校重点实验室,以推进我省的智能制造技术及其产业应用发展,进一步增强我省在“中国制造”国家发展战略中的核心竞争力。主要宗旨是建立各种工业控制过程的数学与物理模型,系统地开展智能制造设备及过程的应用研究及工业数据的分析研究及数据驱动的生产控制策略研究,实验室致力于培养高层次应用型人才及其创新创业能力。
东南大学,南京
东南大学坐落于六朝古都南京,是一所以工科为主要特色的综合性、研究型大学。学校12个学科入选国家“双一流”建设学科名单,并列全国第八位;15个学科进入ESI世界前百分之一,其中工程学位居全球第13位、计算机科学位居全球第4位,稳居ESI世界前万分之一行列,材料科学和化学位居ESI世界前千分之一行列。截止2023年12月底,有效发明专利14739件,位列全国高校第三位。当前,东南大学正着力打造高水平科技创新格局,以更好服务国家重大发展战略。
版权声明:
*本文由Bon View Publishing中国办公室排版,特邀专家审校翻译,遵守CC BY 4.0许可:
https://creativecommons.org/licenses/by/4.0/
如需转载,请于公众号后台留言咨询。
编辑:李双辰
排版:徐远山
审核:任南西
监制:张 雨