人工智能矿物图像识别的准确率显著提升

文摘 2025-02-01 19:56 河北

基于数据增强和集成学习的矿物图像识别

王琳¹，季晓慧¹，杨眉²，何明跃²，张招崇³，曾姗¹，王玉柱¹

1 中国地质大学(北京)信息工程学院

2 中国地质大学(北京)国家岩矿化石标本资源库

3 中国地质大学(北京)地球科学与资源学院

第一作者：王琳，硕士研究生，主要从事深度学习、矿物图像识别研究。

通信作者：季晓慧，博士，副教授，主要从事人工智能应用研究。

导读：

近日，中国人工智能初创企业DeepSeek相继发布了DeepSeek-V3和DeepSeek-R1两款大模型，成为国内外人工智能（AI）大模型领域的热议话题。这一消息不仅令国人深受鼓舞，也进一步激发了地质工作者对人工智能应用的关注。Deepseek的突破成果表明，人工智能与大数据研究拥有巨大的发展潜力。在资料不断丰富的地学领域，人工智能的研究与应用迎来了前所未有的挑战与发展机遇！

矿物识别是地质工作中的一项基础性任务，对于矿产资源的勘探开发、工程建设中的岩土分类以及地球科学研究都具有极其重要的意义。然而，传统的矿物鉴定方法不仅效率低下，还需要经验丰富的工作者进行把关。

近年来，随着人工智能的快速发展，已有许多研究将深度学习的图像分类技术应用于矿物识别，以客观快速地识别矿物。这些研究取得了一定成果，但仍存在矿物数据集图像样本分布不平衡和矿物识别精度有待进一步提高的问题。

本文使用前人的数据集，涵盖36种常见矿物，利用爬虫技术从Mindat爬取了共183688张矿物图像的相机照片。本研究针对数据集中矿物图像较少类别，采用DCGAN生成图像进行数据增强，以解决原本数据集样本数量分布不平衡的问题。使用扩充后的数据训练ResNet、RegNet、EfficientNet及VisionTransformer模型，针对训练好的基模型分别使用平均软投票法和加权软投票法两种方法进行集成，得到最终识别结果。实验结果显示，使用DCGAN进行数据增强后，不同模型对36种常见矿物的识别准确率均有显著提升(周永章等，2024)，4个不同模型上的准确率平均提升了3.12%，其中加权软投票4种基模型的集成模型有最高的准确率。

基金项目：国家科技资源共享服务平台——国家岩矿化石标本资源库子项目(NCSTI-RMF20230107)

说明：参考文献以原文为准，本推文未作详细标注。

------内容提纲------

0 引言

1 基于DCGAN数据增强和集成学习的矿物识别

1.1 基于DCGAN的矿物数据增强

1.2 集成多个CNN和Transformer模型的矿物识别

2 实验结果及分析

2.1 DCGAN数据增强

2.2 投票法集成学习

3 结论

-----------

0 引言

矿物识别是地质研究的重要环节，传统的矿物识别方法大多是鉴定者根据矿物颜色、光泽、纹路和化学成分等进行判断，但存在效率低、过度依赖专家、受主观因素影响等问题。因此，建立简单、快速、准确的自动化矿物识别模型具有重要意义，而将图像分类技术应用于矿物识别是解决上述问题的重要途径。

目前已有相关工作是将基于深度学习的图像分类应用于矿物相机图像识别上：2019年，彭伟航等通过图像随机选取增加数据的多样性，建立矿物识别InceptionV3模型，并引入Center Loss损失函数，使得16种矿物的识别精度达到了86%；2020年，郭艳军等在卷积神经网络(CNN)的结构设计上，选取ResNet-18框架，实现了对石英、角闪石、黑云母、石榴石和橄榄石5种矿物89%的识别准确率；Liu等在2019年论证了深度学习与聚类算法结合的有效性，后李明超等基于强化后的纹理特征，利用K-means算法提取矿物颜色特征，建立颜色特征模型，使用迁移学习思想在Inception-v3上实现了19种矿物的智能识别，top-1精度达到72.2%；2022年，杨彪等基于深度可分离卷积，结合注意力机制，通过密集连接的方式构建矿物智能识别模型，在5类矿物的识别上达到了90%的精度；同年，Zhou等在MobileNet网络的基础上利用迁移学习与SENet机制相结合，对7种矿物的识别实现了96%的精度；2023年，李雷等将ImageNet数据集上已预训练的ConvNeXt网络模型迁移学习到矿物识别模型中，并在ConvNeXt网络的基础上，通过在ConvNeXt块之后与注意力机制相结合的方式，在26种矿物图像认别测试中达到了98.58%的精度；在36种矿物的识别上，2021年，Zeng等（参考文献12）结合矿物的莫氏硬度，使用Efficient Net达到了90.1%的分类精度，2022年，Wu等（参考文献13）基于Vision Transformer模型使用多标签分类方法，对36种矿物实现了共/伴生矿物的识别，得到了85.26%的精度。

上述基于图像分类的矿物识别工作已取得一定进展，但能识别的矿物种类较少，且精度仍需进一步提高。在文献[12-13]的工作中，作者对36种矿物进行了识别，但使用的数据集内不同种类矿物的数量不均衡，影响识别精度。对数据集中数据量少的数据进行数据增强能进一步提升精度，其中使用生成对抗网络(Generative Adversarial Network，GAN)扩充数据集已取得了较好效果，如：2020年，Bushra等使用DCGAN扩充数据集，解决新型冠装病毒可用诊断X光及CT扫描图像稀缺问题；2023年，姜霞等利用GAN扩充数据集，将O型星的分类准确率提升至97.92%，整个恒星光谱分类器的准确率达到96.28%。这些工作都验证了GAN，尤其是DCGAN的扩充数据集效果，因此本文采用深度卷积对抗网络(Deep Convolutional GAN，DCGAN)对矿物数据集进行数据增强。

集成学习也是提高图像分类精度的方法，其构建多个学习器，通过一定策略结合以获得比单个学习器更优越的效果，如：Saqlain等在2019年使用集成学习提升了半导体制造中晶片映射缺陷模式识别的精度；2020年，崔阳阳等使用集成学习进行了地质灾害危险性评价。因此，本文集成深度学习中精度较高的CNN和Transformer模型，以进一步提高矿物识别精度。

1 基于DCGAN数据增强和集成学习的矿物识别

1.1 基于DCGAN的矿物数据增强

在基于深度学习的图像分类中，数据集至关重要，其质量将直接影响识别准确率。本文使用同Zeng等（2021）文献[12]和（WU B K等，2022）[13]相同的数据集，数据集所有图片均使用爬虫技术爬取来自Mindat的相机照片，部分图像示例如图1。该数据集涵盖了36种常见矿物，矿物名称及数量如表1所示，共包含183688张矿物图像。但自然界中个别种类矿物稀少等使得数据集内部各种类矿物图像数量分布不均衡，如数量最多的石英有34883张，而雌黄只有720张，一定程度上影响了最终的识别精度，因此本文使用数据增强的方法对少于2000张图像的钠长石、辰砂、钙铁榴石、透辉石、盐岩、白铁矿、雌黄、红宝石、蓝宝石、硫矿物和铜轴云母等11种矿物进行数据增强。

表1 本文数据集包含的36种常见矿物及其样本数量

图1 矿物数据集部分图像示例

本文使用能更好捕捉图像中细微结构并生成更逼真图像且更快收敛的DCGAN生成矿物图像，对样本少的矿物图像进行数据增强，如图2所示。与其他GAN相比，DCGAN去掉了所有的池化层，是一个全卷积网络。它的核心是一个生成器和一个鉴别器：生成器使用步长卷积代替池化层，使用tanh激活函数，是一个反向的卷积神经网络；鉴别器使用分数补偿卷积代替池化层，使用leaky ReLU激活函数，是一个简单的卷积神经网络。具体结构如表2所示。

图2 DCGAN扩充矿物数据集

表2 DCGAN生成器与鉴别器网络结构

DCGAN生成矿物图像的核心是通过生成器G与鉴别器D不断对抗训练，最终判别器判别不出样本是来自于生成器的输出还是真实矿物图像，判别概率均为0.5，此时生成器生成的图像即可补充到数据集中以增加样本少的矿物图像数量。对抗训练时生成器不断捕捉真实矿物样本的数据分布特点，并根据捕捉到的数据分布特点进行学习，从初始时的随机噪声生成新的矿物数据，鉴别器对其输入进行判断，鉴别其输入是真实矿物图像还是生成矿物图像。对抗训练后，生成器的矿物图像生成能力提高，使鉴别器无法成功鉴别样本是生成矿物图像还是真实矿物图像，而鉴别器对矿物图像判别能力也在训练中不断增强。

对抗训练的损失函数如公式(1)所示。生成器G的目标是生成器生成的样本数据G(z)经过鉴别器后可以鉴别为真，即鉴别器输出概率等于1，D(G(z))=1，1-D(G(z))=0；鉴别器D的目标是如果输入真实矿物图像，则鉴别器D的输出概率等于1，D(x)=1，如果输入生成器生成矿物图像G(z)，则鉴别器D的输出概率等于0，即D(G(z))=0，1-D(G(z))=1。公式(1)中P_data为某类真实矿物数据的分布，P_g为随机噪声数据的分布，生成器G和鉴别器D交替迭代更新，先固定生成器G训练鉴别器D，当且仅当P_data=P_g时，随机噪声数据分布与真实矿物数据分布一致，公式(1)达到全局最优解，停止训练，此时生成器G成功学习了真实样本数据P_data的分布，鉴别器模型D的准确率稳定在0.5。

E_z_～_P_g(_z₎{log_a[1-D(G(z))]} (1)

用表1中所示图像数量少于2000张的11种矿物图像分别对DCGAN进行对抗训练，即可分别获得这11类矿物的生成图像。

1.2 集成多个CNN和Transformer模型的矿物识别

如前所述，集成学习可以提高图像分类的精度，本文集成不同的CNN和Transformer模型对矿物图像进行识别，以得到更高的精度。常用的基于多模型的集成方法是Stacking和Voting，其中Stacking对层数较多的深度学习模型易出现过拟合，因此本文使用Voting进行模型集成。

本文采用基于Voting集成学习的矿物识别，如图3所示。首先采用在ImageNet上效果较好的ResNet、RegNet、EfficientNet和Vision Transformer用表1所示的数据集进行训练、验证和测试，得到各分类器在测试集上的测试精度acc_i。ResNet、RegNet和EfficientNet是经典的CNN网络模型：ResNet的核心是残差块多层堆叠，网络深度较大；Reg Net的特点是通过对模型的卷积、网络和数据大小以及深度残差等进行调整，以适应不同特定环境；EfficientNet通过平衡分辨率、深度和宽度3个维度，实现网络在效率和准确率上的优化。而Vision Transformer是Transformer模型应用于图像分类的代表模型，具有全局性强、收敛快等特点。

图3 基于集成学习的矿物图像识别

进行集成时采用平均软投票和加权软投票两种方法。平均软投票对所有基分类器的矿物预测概率取平均；加权软投票是对所有基分类器的预测概率按照公式(2)加权得到的结果，可见精度较高的基模型的权重较大，精度较低的基模型权重较小，公式(2)中，M为基分类器的个数，本文最大为4。

(2)

2 实验结果及分析

本文使用Python编程语言，基于Pytorch框架在Linux系统上实现所有的实验。实验的所有深度学习模型都在GPU上运行，以提高训练效率。具体实验环境如表3所示。

表3 实验环境

2.1 DCGAN数据增强

如前所述对原数据集中少于2000张图像的钠长石、辰砂、钙铁榴石、透辉石、盐岩、白铁矿、雌黄、红宝石、蓝宝石、硫黄和铜铀云母的11种矿物进行扩充，采用如下两种扩充方案：一是每类生成300张图像；二是将少于2000张图像的矿物都扩充到2000张以上。两种方案手动删除垃圾数据后将生成图像加入训练集。生成的部分矿物图像如图4a所示，其去除背景的反相图如图4b所示，可以看到生成的矿物图像大部分清晰且较为真实，但仍存在部分生成图像不清晰或与矿物图像并不相似，如图4a中的02，因此将此类图片手动删除，两种方案扩充后11种矿物的数据如表4所示。方案一共增加2866张矿物图像；方案二共增加8916张矿物图像。

表4 扩充前后11种矿物图像样本数量的变化

图4 部分DCGAN生成的矿物图像(a)及其反相图(b)

数据增强前数据集按照8∶1∶1划分为训练集、验证集和测试集，然后将生成的矿物图像加入训练集，使用的基模型分别为ResNet_50、ResNet_101、RegNetX_600MF、EfficientNet_b4和ViT_base_16_224。训练时使用的超参数如表5所示。

表5 各模型训练使用的超参数

实验过程中5个模型训练时，随着训练次数的增加模型逐渐收敛，训练集精度逐渐增大，损失逐渐减小，当模型的损失和精度都趋于稳定时，模型结束训练。最终5个模型在矿物数据集上的识别结果如表6。

表6 扩充前后数据集在不同模型上top-1精度

结果表明数据增强对各模型的精度均有提升，方案一平均提升精度为2.04%，方案二平均提升精度为3.12%。这表明增加的训练数据越多且越均衡时，精度的提升效果越好。

2.2 投票法集成学习

集成学习采用如前所述在Image Net上效果较好的ResNet_101、RegNet、EfficientNet和Vision Transformer(ViT)4个基分类模型，集成得到11个子模型，如表7所示。为确定最优的集成方式，使用平均软投票法和加权软投票法进行原始未扩充数据训练，所得结果如表7所示。

表7 不同投票法的集成学习在扩充前数据集上的top-1精度

由表7可见，表现最好的是1号，它是由4个基模型组成的加权软投票集成模型，得到了84.45%的top-1精度。因此将此模型在方案二扩充后的数据集上训练，在测试集上所得36种常见矿物识别的平均精度为87.47%。集成模型与EfficientNet和ViT在36种矿物识别上的精度对比如图5所示，而EfficientNet是CNN模型中精度最高的，可见集成模型具有最高的精度。

图5 集成模型与EfficientNet和ViT在36种矿物上的精度对比

图中横坐标轴上所列各序号代表的矿物名称见表1。

文献[12]对36种矿物的识别准确率为78.3%，本文基于数据增强及加权软投票法集成学习所得的精度为87.47%，提高了9.17%。

3 结论

(1)为了解决自然界中矿物数量不平衡带来的数据分布不平衡问题，本文使用无监督数据增强方法对数据量较少的矿物进行了图像生成，实验结果表明增强后的数据集提高了矿物图像识别精度，在4个不同模型上的准确率平均提升了3.12%。

(2)为进一步提高矿物识别精度，对ResNet、RegNet、EfficientNet和Vision Transformer模型使用平均软投票和加权投票法进行了集成，实验结果表明由4个基模型组成的加权投票法的集成模型具有最高的准确率，在数据增强后的数据集训练后得到的准确率为87.47%。

参考文献：

[12] ZENG X, XIAO Y C, JI X H, et al. Mineral identification based on deep learning that combines image and mohs hardness[J]. Minerals, 2021, 11(5)：506.

[13] WU B K, JI X H, HE M Y, et al. Mineral identification based on multi-label image classification[J]. Minerals, 2022, 12(11)：1338.

公司介绍

北京阳光创译语言翻译有限公司（Suntrans）成立于 2008 年 2 月。公司总部设立在北京，在美国纽约设有分公司，并在乌干达和巴基斯设有办事处。在董事长吕国博士的带领下，历时15年，阳光创译由最初只有6人的翻译团队发展至今成为拥有50 余名全职管理人员、 1024 名兼职译员和 68 名核心译审人员的专业队伍。

阳光创译是中国领先的专业领域多语服务提供商，是中国专业地质矿业语言服务领军品牌。目前是中国翻译协会成员、中国语言服务产业技术创新联盟成员和中国矿业联合会全球地质信息共享委员会理事会成员。阳光创译致力于为中国地质、矿业以及石油领域企业国际化和本地化提供整体语言解决方案，主要从语言翻译服务、人才培养和咨询服务三方面推进企业的国际化进程。

阳光创译的核心定位已经由最初的“阳光创译=矿业翻译”——中国地质矿业翻译领军品牌逐渐延伸扩展成“阳光创译=中国国际矿业服务大平台”，涵盖矿业翻译、矿业会展、矿业咨询、矿业猎头、“一带一路”矿业商会、矿业媒体等国际矿业服务板。

热文推荐：

●矿业投资33条铁律，您同意几条？！

●史上最牛地矿院校！8年培养出22位地矿院士！

●地球最大采矿项目有进展了！只剩中国点头了

●影响你我10大矿业政策出炉，您觉得哪条最大？

●非洲最大的五大铜矿山，中国霸占前两席！

●《中国矿业报》专访阳光创译吕国博士

●阳光创译 | 矿业翻译服务

●专业矿业能源翻译服务，帮您开启全球合作之门

‍

相关业务需求即可致电下方相关责任人

吕国博士	董事长	1127203572@qq.com
电话：13401184506		微信：suntrans-mining
孙玉梅	总经理	853495100@qq.com
电话：010-82865216		微信：853495100
Gary	矿业外语猎头	582934973@qq.com
电话：13311203631		微信：suntrans222
Bruce	英语翻译	1935014417@qq.com
电话：13693672413		微信：13693672413
刘鑫	论文翻译	1749173384@qq.com
电话：13683660873		微信：lvy_09260312
苗菁	地矿报告翻译	2534271235@qq.com
电话：13683661813		微信：zyy-suntrans
Jerry	口译	2268356581@qq.com
电话：13681439112		微信：miningtranslation
范瑞瑞	媒体合作	1985130191@qq.com
电话：17310253590		微信：suntrans2014
Tom	全职招聘	347562171@qq.com
电话：13661190472		微信：13661190472
赵宏	矿业咨询部主任	1583289628@qq.com
电话：13683660397		微信：suntrans_1543
Mary	矿业咨询部副主任	3073107861@qq.com
电话：15210897852		微信：suntrans-1938
Mary	矿产贸易总监	1529169438@qq.com
电话：17310657953		微信：ha15313128283
刘英龙	董事长助理兼销售经理	3602237436@qq.com
电话：15701297623		微信:suntrans_6787

打造中国地质矿业翻译领军品牌

阳光创译的核心定位已经由最初的“阳光创译=矿业翻译”——中国地质矿业翻译领军品牌逐渐延伸扩展成“阳光创译=中国国际矿业服务大平台”，涵盖矿业翻译、矿业会展、矿业咨询、矿业猎头、“一带一路”矿业商会、矿业媒体等国际矿业服务板块。

商务合作：请加编辑微信suntrans2008（添加时请您标明“公众号商务合作”意向）；联系电话：15313128281

阳光创译语言翻译

中国国际矿业能源服务大平台。矿业翻译、矿业咨询、矿业会展、专业技术服务等全方位信息技术服务