技术干货 | 面向领域的工业大数据系统技术

科技科技 2024-02-29 18:03 北京

本文节选自田春华博士、徐地博士领衔撰写的新书《工业大数据工程：系统、方法与实践》。下周四晚20:00，昆仑数据副总钟虓、首席数据科学家田春华博士、首席架构师徐地博士相聚直播间畅聊新书。

应对多样化的工业大数据需求，工业大数据系统宜采用层次化的建设方法，如下图所示。在充分融合通用大数据技术社区的基础上，开发针对工业特色的算法库、计算框架和物联网数据库技术，在此之上，针对典型工业大数据应用领域（例如，设备健康与诊断、生产质量管理、生产效率优化等），形成领域算子库、领域模型和分析建模环境；在此之上，针对行业对内容进行进一步具象化；这样企业的大数据应用，可以基于底层的共性内容组合出来，形成基于资产的敏捷模型研发。

多源异构数据汇集与处理技术与系统

通过面向工业数据存储优化的工业大数据技术，实现多源异构数据的一体化、低成本、分布式存储；通过面向工业大数据分析负载优化的存储读写技术，实现分析工具对数据的高效存取；通过一体化元数据技术，实现对时序数据、关系数据和对象数据的工业语义化组织与高效检索。

工业大数据系统的层次化建设方法

针对跨领域协作效率低的共性挑战，将海量异构的数据变成有领域语义的信息资源，将丰富非结构化的知识变成可扩展的形式化模型，将模型研发与部署运行运维一体化，支撑工业企业的自主研发能力建设。

低门槛工业大数据分析建模环境

为适配领域专家的技能，建模方式最好是组装式建模，基于大量内置的算子，根据业务问题进行配置和建模；或者基于丰富的行业分析案例或分析模版，快速适配当前问题。在模型测试方面，采用“大数据与小数据”无缝切换的方式，开发和调试可以在本地的小数据集上进行，运行在大数据集上，出现异常后，能将异常上下文以数据文件的形式提供到本地调试。基于这样的非侵入式并行化技术，大量的现有分析模型资产可通过低代码方式迁移到大数据环境。同时，为保证技术资源的可持续性，要融入Python、R、MATLAB等技术社区，一方面可以借用社区的资源和力量，另外，也可以保证社区资产的利用。

大数据平台也需要支持已有分析模型的快速成熟。很多工业企业积累了不少单机分析模型（如MATLAB、Python、R），但缺乏在大数据集上的验证工作。经典的大数据并行化分析系统要求重新编写分析程序，但其算法库（如MLlib、FlinkML）对工业分析方法（如信号处理、系统辨识等）的支持有限。在很多工业分析场景中，并行化数据通常是按照有明确业务语义的字段来分组的（如风功率曲线计算按照风机、月份进行并行化）。因此，工业大数据平台应该支持非侵入式的MATLAB、Python、R并行化，用户只需指定可并行化分组的数据字段，并对单机分析程序做简单适配，就可以直接将分析模型甩到大数据平台上做全量并行化，通过大数据的迭代去伪存真，探究海量数据背后的一般性规律，实现企业已有分析资产和实践经验的快速变现。这就需要分析引擎能够将分析模型与计算模式（批计算、流计算）、运行环境（集群、单机）、数据源独立开来，这样研发的模型可以实现多现场部署。

数据应用的低代码开发工具

工业数据应用与信息化中的业务应用有很大不同。首先，数据应用支持关键决策，业务流程很短，主要集中在决策结果可视化方面；其次，数据应用背后依赖很重的数据上下文，需要明确数据模型抽象；另外，依赖包多，运行环境差异大；最后数据应用的运行环境差异大，可运行在中心端的分布式环境，也可以运行在边侧的单机环境。这些差异也决定了数据应用的低代码开发与业务应用型低代码开发不同。

云边协同的分析模型与数据应用运行环境

因为数据安全、数据传输负载等因素，很多工业现场数据不能回传到中心端。这时通常要求分析模型和应用能够运行在边侧。这样就要求大数据计算引擎可以适应异构环境，包括：① 消除模型研发和生产运维的隔离，最好够采用同一套代码，避免重复开发；② 支持灵活的部署方法，包括在线的一键部署与离线的基于文件的部署；③ 屏蔽集群、单机等运行环境的差异性；④ 屏蔽流计算、批计算执行方式的差异。

昆仑数据K2Data

昆仑数据是工业互联网领域的领军企业，蝉联“中国大数据企业50强”，受邀参与制订《中国制造2025》工业大数据技术路线图，发起成立并主导运营工业大数据制造业创新中心，致力于用大数据和人工智能技术，推动中国工业智慧升级。

最新文章

数据探索系列 | 可视化是拨乱反正的关键一步

昆仑数据K2Assets入选2024年北京市工业互联网平台名单

陆薇博士应邀在《ACM通讯》发表文章

数据探索系列：拨开迷雾，找到一条通往终点的最短路

数据探索系列 | 为什么会那么多算法，还是做不好工业数据分析？

2024爱分析·数据要素x厂商全景报告

K2动态 | 《国家工业互联网大数据中心工业智算基地评估规范》正式发布

技术干货 | 工业数据分析的3种载体形式

昆仑数据受邀出席数智化促进核能新质生产力发展会议

技术干货 | 分析场景识别中的常见问题

清洁能源数字化的现状、趋势和未来

直播预告 | 清洁能源数字化现状、趋势和未来

伺服电机滚动轴承的智能化寿命预测

工业数智化趋势和需求是什么？向数据要更多价值

昆仑数据亮相CCKS 2024全国知识图谱与语义计算大会

技术干货 | 大模型在工业数据分析过程中的典型用例（下）

技术干货 | 大模型在工业数据分析过程中的典型用例（上）

《工业数据分析工程基于CRISP-DM的形式化方法》背后的故事

新书上架 |《工业数据分析工程 -- 基于CRISP DM的形式化方法》

直播回顾 | 工业数据分析模型的规模化应用，如何做？

中国工业大数据创新发展联盟数据资源管理与应用专委会启动会暨工业互联网大数据技术工业和信息化部重点实验室技术交流会顺利召开

直播预告 | 工业数据分析模型的规模化应用，如何做？（下）

工业数据分析模型的规模化应用，难在哪？

重磅 |《工业互联网平台工业机理模型开发指南》国家标准正式发布

直播预告 | 工业数据分析模型的规模化应用，难在哪？From Science to Engineering

工业数据分析竞赛的那些事儿

四川省工业大数据创新中心入驻成都AI创新中心

直播预告 | 从时序数据库IoTDB看工业数据管理难题何解

直播预告 | 工业数据分析竞赛的“秘笈”与启示

人工智能如何赋能先进制造业？“工业人工智能研讨会”举办

直播回顾 | 工业大模型落地新范式

直播预告 | 工业大模型落地新范式

快讯 | 昆山工业大数据创新中心正式启动！

2024首期制造业数智化转型高级研修班于昆山开课

直播预告 | SCRUM敏捷开发在工业数智化研发中的应用

读者反馈 | 如何用《工业大数据工程：系统、方法与实践》解决工作中的具体问题

即将截止 | 中国工业大数据创新发展联盟专业委员会征集会员单位

直播回顾 | 《工业大数据工程系统、方法与实践》背后的故事

征集 | 中国工业大数据创新发展联盟专业委员会征集会员单位

工业数据要素管理中的“人-机-料-法-测-环” （下）

直播预告 | 工业大数据工程系统、方法与实践

技术干货 | 面向领域的工业大数据系统技术

第三届工业数字孪生大赛全国总决赛及颁奖典礼成功举办

请回答2023 | 向数据要价值向人才要答案

产业元宇宙，打开发展新空间

工业数据要素管理中的“人-机-料-法-测-环” （上）

陆薇荐书 | 我眼中的《工业大数据工程系统、方法与实践》

新书上架 |《工业大数据工程系统、方法与实践》

技术干货 | 分析工业时序数据，要额外考虑什么？

我中心当选中国工业大数据创新发展联盟理事单位

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉