中国中煤:煤炭行业地知大模型应用

科技   2025-01-08 11:48   天津  


©IntelMining

IntelMining

近日,由中央企业人工智能协同创新平台组织编写的《中央企业人工智能应用场景优秀案例白皮书(2024年版)》正式发布,展示了多个领域人工智能应用的最新成果。其中,国能数智科技开发(北京)有限公司的“面向煤炭行业的人工智能一体化赋能平台”项目以及中国中煤能源集团有限公司的“煤炭行业地知大模型应用”项目,作为矿业类项目代表尤为引人注目,标志着煤炭行业在智能化转型道路上迈出了坚实步伐。


扫码下载或点击左下角“阅读原文”下载


以下分享中国中煤案例:


案例 21
煤炭行业地知大模型应用


单位:


中国中煤能源集团有限公司 


作者:


李崇智、王利欣、王瑜、白冬艳、李岑


PART 01
案例简介


中煤“地知”大模型缘起于《煤矿全生命周期地质保障系统》重大科技专项。中煤地知大模型重点在“煤、地、知”,即“中煤、煤矿、地下、知识大模型”。“地知”,亦可延伸为“地智”“地支”。


  • 地知——煤矿地下的事情我知道。将煤炭领域的国家政策、规程规范、地质报告、设计文件以及公司的规章制度、生产经营参数作为数据库来源,通过训练,实现知识问答。


  • 地智——煤矿地质的问题智能化。探索利用语言大模型技术实现煤矿地质说明书、作业规程、日常报表报告等自动生成,使日常工作自动化、简便化、智能化。


  • 地支——煤矿地质的时空演化规律。天干地支是中国古代的一种纪年法,用来表示时间和年份。天干承载天之道、地支承载地之道,通过大模型技术来展现煤矿地质的时空演化规律。


搭建天津公司私有化大模型,录入公司项目文件、各专业规范、公司管理制度、煤矿安全知识进行验证测试。


PART 02
建设方案

硬件配置



大模型底座



大模型结构


图 21.1 大模型结构图


如上图所示,“地知”大模型分为四层结构,其中包括基础层、工具层、模型层、应用层。其中,基础层提供 训练数据和算力;工具层提供数据处理方法和数据分析方法;模型层提供大模型功能;应用层提供常用操作。各 层之间紧密联合。


1) 软件技术架构

图 21.2 软件技术架构图 


“地知”大模型架构主要分为四部分数据域、大模型域、安全隔离域、用户域。其中数据域主要作用是数据 收集和数据处理。大模型域主要使用大模型技术对数据域传输的数据进行进一步增量训练和处理。安全隔离域的 主要作用是对数据进行安全管理。用户域主要针对用户进行个性化处理。


2) 实施方法 


a)大模型部署。部署 docker 环境,在 docker 环境中部署 langchain-chatchat 与 FastChat。其中 docker 是一种开源的容器化平台,langchain-chatchat 是一种利用 langchain 思想实现的基于本地知识库的问答应用, FastChat 是一个用于训练、部署和评估大模型的开源框架。使用 FastChat 部署语言大模型及 Embedding 模 型,Embedding 模型使用 bge-large-zh。Embedding 模型用来将文本转换为向量。使用 FAISS 进行大规模 向量相似度搜索。 


b) 数据收集及处理。收集数据包括企业内部数据和企业外部数据。煤炭企业内部数据主要来源于企业内部 管理系统、档案系统、纸质文件等。外部数据主要来源于国家政策规定、行业规定、其他煤炭企业公开数据、网 络相关信息、煤炭相关文章等。数据收集方式主要通过接口链接企业内部数据库,并通过 Scrapy 爬虫技术对网 络数据进行定时爬取和补充。 


“地知”大模型共收集各类设计专业规范:采矿 116 册,选煤 17 册,建筑 11 册,结构 52 册,机械 106  册,机制 223 册,电气 342 册,给排水 11 册,暖通 74 册,总图 78 册,共计 1120 册。煤矿生产、安全、 科技相关数据共 3249816 条,其中煤炭会议论文 49573 条、煤炭学位论文 59945 条、煤炭科学论文1624563 条、煤炭科技专利 103860 条、煤炭领域专家 305129 条、煤矿企业机构 584015 条、煤矿安全事故 11354 条、煤矿安全问答 22387 条、煤矿技术 474497 条、煤矿标准规范 13220 条、煤矿装备 1273 条。并录入项目文件 2759 个及公司规章制度文件若干。 


针对对收集非结构化数据、半结构化数据、结构化数据分别进行处理。非结构化数据例如 PDF 及图片文件使用 OCR 技术将其转为可编辑的 docx 格式文件,word 文件、excel 文件均转为 docx 格式文件,使用 bgelarge-zh 模型将文件转换为向量数据存入数据库。 


c)创建知识图谱。针对知识图谱模块的非结构化数据和半结构化数据,使用实体识别得到煤炭数据实体, 为解决设计图纸、地质资料、水文资料等纸质资料的结构化处理、使用 MacBERT 模型作为词嵌入层,同时加入 长短期记忆网络提取上下文语义特征,最后通过条件随机场输出最优标注序列。再使用实体融合技术将两个表述 不同但实际意义相同的词进行合并。在知识融合完成后,得到了三元组集的知识表示,并选用 Neo4j 图数据库 存储煤炭知识图谱。为了保证实体识别结果的准确性,对实体识别模型采用准确率、召回率和 F1 测度指标进行 评估,当模型评估指标达到一定要求时,再用模型对未标注数据进行实体识别,并且对实体识别模型抽取出的实 体再进行人工审核,最大程度的保证结果的准确性。 


基于数据质量词表,分析知识图谱的质量特征,对知识图谱从完整性、一致性、准确性、覆盖率等多个角度, 构建知识图谱质量维度,得到知识图谱质量评估本体,建立知识图谱质量模型,对知识图谱质量进行评估。 


d)大模型训练。大模型主要用于语义识别,理解用户输入,并能够调用知识图谱数据,整理输出数据生成 文本,当知识图谱数据不足以回答用户问题时,可使用大模型模块对知识图谱模块相关知识进行深度推理,并使 用高分答案进行回答,以应对大模型回答问题幻觉的现象。 


针对大模型模块数据,选取得到的部分数据进行有效分类和标注。使用标注后的文件对大模型进行训练。同 时使用 bge-large-zh 模型将数据转换为向量存入知识库,进行知识库增量更新,供大模型调用。 


e)UI 及功能设计。“地知”大模型前端使用 VUE 框架,后端使用 JAVA 语言、SpringBoot 框架,调用大模 型接口实现在网页端对大模型的访问及使用。


图 21.3 大模型知识回答 


大模型主要功能如上图所示,主要以问答形式调用模型知识库内数据。可以设置是否连接网络、对问题重新 回答、对问题答案进行反馈,让大模型能够根据反馈信息更新回答内容。


PART 03
建设成效


“地知”大模型能够有效节省公司员工对于公司制度和行业规范标准查询的时间,并能够辅助员工进行 PPT 编辑和文档编辑工作。“地知”大模型通过应用实践,充分收集应用建议,快速迭代优化模型数据分析和语义理 解能力,获得公司内部一致好评。自 2024 年 6 月份上线以来,累计登陆达到 8000 余次,知识推送 2 万次,成 为设计人员的得力助手。 


后期主要围绕以下两个方面继续展开研究: 


《煤矿全生命周期地质保障系统》重大专项课题。调研各矿地质资料,录入地质数据,构建透明地质知识图 谱,构建地质数据推理模型,后期重点开发:


1)煤矿地质知识智能问答; 


2)煤矿地质相关报告自动生成;


3)煤矿地质仿真预测,结合地质仿真预测理论研究,将大模型与知识图谱技术结合,形成地质仿真预测系 统,指导煤矿生产和灾害防治。


4)智能地质建模工具软件,以地质勘探数据为基础,有效结合矿井生产过程监测数据,研发地质大模型, 形成动态高精度建模工具软件。 


知识管理系统智能推送。打通设计协同管理系统数据,联动设计项目平台,将全院设计、咨询、管理等数据 录入大模型,激活存量设计数据,助力提升设计效率和质量,推送典型设计方案、规程规范条文、设计标准模板、 技术口径要求、合同技术要求等数据。

更多问题

↓来问“超级矿工IMiner”↓


@打造矿业科技综合服务平台www.intelmining2018.com

❖免责声明:所载内容来源网络、微信公众号等公开渠道,转载稿件版权归原作者、机构所有,转载仅供参考、交流等非商业目的,如有侵权,请联系我们删除。


转发,点赞,在看,安排一下?

IntelMining智能矿业
建设智慧矿山,科技赋能矿业,让采矿酷起来!“科创中国”智能矿山专业科技服务团牵头单位
 最新文章