技术干货 | 面向领域的工业大数据系统技术
科技
科技
2024-02-29 18:03
北京
本文节选自田春华博士、徐地博士领衔撰写的新书《工业大数据工程:系统、方法与实践》。下周四晚20:00,昆仑数据副总钟虓、首席数据科学家田春华博士、首席架构师徐地博士相聚直播间畅聊新书。应对多样化的工业大数据需求,工业大数据系统宜采用层次化的建设方法,如下图所示。在充分融合通用大数据技术社区的基础上,开发针对工业特色的算法库、计算框架和物联网数据库技术,在此之上,针对典型工业大数据应用领域(例如,设备健康与诊断、生产质量管理、生产效率优化等),形成领域算子库、领域模型和分析建模环境;在此之上,针对行业对内容进行进一步具象化;这样企业的大数据应用,可以基于底层的共性内容组合出来,形成基于资产的敏捷模型研发。
通过面向工业数据存储优化的工业大数据技术,实现多源异构数据的一体化、低成本、分布式存储;通过面向工业大数据分析负载优化的存储读写技术,实现分析工具对数据的高效存取;通过一体化元数据技术,实现对时序数据、关系数据和对象数据的工业语义化组织与高效检索。
针对跨领域协作效率低的共性挑战,将海量异构的数据变成有领域语义的信息资源,将丰富非结构化的知识变成可扩展的形式化模型,将模型研发与部署运行运维一体化,支撑工业企业的自主研发能力建设。
为适配领域专家的技能,建模方式最好是组装式建模,基于大量内置的算子,根据业务问题进行配置和建模;或者基于丰富的行业分析案例或分析模版,快速适配当前问题。在模型测试方面,采用“大数据与小数据”无缝切换的方式,开发和调试可以在本地的小数据集上进行,运行在大数据集上,出现异常后,能将异常上下文以数据文件的形式提供到本地调试。基于这样的非侵入式并行化技术,大量的现有分析模型资产可通过低代码方式迁移到大数据环境。同时,为保证技术资源的可持续性,要融入Python、R、MATLAB等技术社区,一方面可以借用社区的资源和力量,另外,也可以保证社区资产的利用。大数据平台也需要支持已有分析模型的快速成熟。很多工业企业积累了不少单机分析模型(如MATLAB、Python、R),但缺乏在大数据集上的验证工作。经典的大数据并行化分析系统要求重新编写分析程序,但其算法库(如MLlib、FlinkML)对工业分析方法(如信号处理、系统辨识等)的支持有限。在很多工业分析场景中,并行化数据通常是按照有明确业务语义的字段来分组的(如风功率曲线计算按照风机、月份进行并行化)。因此,工业大数据平台应该支持非侵入式的MATLAB、Python、R并行化,用户只需指定可并行化分组的数据字段,并对单机分析程序做简单适配,就可以直接将分析模型甩到大数据平台上做全量并行化,通过大数据的迭代去伪存真,探究海量数据背后的一般性规律,实现企业已有分析资产和实践经验的快速变现。这就需要分析引擎能够将分析模型与计算模式(批计算、流计算)、运行环境(集群、单机)、数据源独立开来,这样研发的模型可以实现多现场部署。
工业数据应用与信息化中的业务应用有很大不同。首先,数据应用支持关键决策,业务流程很短,主要集中在决策结果可视化方面;其次,数据应用背后依赖很重的数据上下文,需要明确数据模型抽象;另外,依赖包多,运行环境差异大;最后数据应用的运行环境差异大,可运行在中心端的分布式环境,也可以运行在边侧的单机环境。这些差异也决定了数据应用的低代码开发与业务应用型低代码开发不同。
因为数据安全、数据传输负载等因素,很多工业现场数据不能回传到中心端。这时通常要求分析模型和应用能够运行在边侧。这样就要求大数据计算引擎可以适应异构环境,包括:① 消除模型研发和生产运维的隔离,最好够采用同一套代码,避免重复开发;② 支持灵活的部署方法,包括在线的一键部署与离线的基于文件的部署;③ 屏蔽集群、单机等运行环境的差异性;④ 屏蔽流计算、批计算执行方式的差异。