推荐田春华老师的新书《工业大数据工程:系统、方法与实践》。这本书对企业做工业数据落地应用提供了系统的方法论以及可以借鉴的案例。我个人列举几个亮点:
数字化与信息化的差别,有助于帮助企业发现差距,以确立数字化转型目标; OT、DT、IT的融合与分工,有助于帮助企业建立自己的工业数据分析团队; 敏捷工业数据分析方法、MLOps最佳实践和过程模型,有助于帮助企业提升自身工业数据分析平台建设方法。
问题1:如何搭建低门槛工业大数据分析建模环境?
建模方式方面,采用组装建模,基于内置算子,根据不同领域问题配置和建模。也可以利用现有分析案例或分析模板。其中,算子分为通用算子、领域算子和行业算子。通用算子包括数据源、数据预处理、机器学习、数据输出、特征工程的属性。领域算子针对特定的工业分析领域,行业算子是特定行业的算子。分析案例应该包括CRISP-DM方法的6个阶段的内容。分析模板包括:1、业务问题的要素模型;2、典型问题的特征变量库;3、特定领域的典型数据质量库;4、特定领域的猜想和专家经验库。
模型测试方面,采用“大数据与小数据”无缝切换方式,开发调试采用本地小数据集,运行时采用大数据集。
大数据平台方面,支持非侵入式的MATLAB,Python,R并行化,用户指定可并行化分组(通常根据业务语义字段分组)的数据字段,并做单机分析程序的适配,即可利用分析模型在大数据平台上实现全量并行化。
实现多现场部署,分析引擎需要独立以下部分:分析模型与计算模式(批计算与流式计算)、运行环境(集群或者单机模式)和数据源。
问题2:如何做好数据应用的低代码开发工具?
需要注意以下方面。明确实现工作重点是决策结果可视化。
1、明确数据模型抽象,如领域驱动建模、实体关系建模、维度建模等,书中介绍的设备模型、产线模型和守恒流模型很有参考意义。
2、理解数据应用的运行环境差异大,依赖包多。
3、根据实际情况选择数据应用是采用分布式环境还是单机环境。
4、特别要注意,现在一些业务应用型低代码平台并不适用于数据应用。
问题3:如何实现云边协同的数据应用?
保持研发模型与实际运行环境模型的一致性;支持灵活的部署方法,包括在线的一键部署与离线的基于文件的部署;屏蔽集群和单机等运行环境的差异性;屏蔽流计算和批计算执行方式的差异。
欢迎一起讨论,做好工业大数据分析平台的落地工作。