直播回顾 | 《工业大数据工程 系统、方法与实践》背后的故事

科技   2024-03-14 18:27   北京  
一、是什么动机或初衷促使大家一起编写这本书?
这本书的初稿完成在22年6月份,因为口罩原因,近期才面市。这是我们出版的第三本书,前两本主要是讲数据分析。第一本《工业大数据分析实践》,内部代号黑书,主要是讲工业大数据分析怎么定义问题,典型的工业大数据分析课题有哪些。第二本《工业大数据分析算法实战》主要讲不同的算法在工业场景下的使用。工业大数据的应用是一个系统性工程,数据分析只是其中一个方面,所以我们希望找机会把工业大数据工程和系统方面的知识梳理一下。这本书的出版有一定必然性,但在这个时间点出版也有一定的偶然性。
这本书中的数据工程相关的内容,一开始并不是奔着出书去梳理的,而是当时在工程中确实碰到了一些问题,凭着我们的直观感受,认为找到了一些正确的方式方法。为求谨慎,开始博览群书,翻阅了大量的资料,希望将这些方式方法变得更完善一些,于是催生和沉淀了相关内容。此外,很多K2行业专家也贡献了不少知识和想法。
工业大数据技术的发展到了今天,围绕着一个数字化工程或者数字化项目怎么去做,应该有更成熟的套路和章法,让大家少走弯路。这也是出版这本书的初衷。
二、这本书按照一个相对完整的跨度,介绍数字化项目过程中,怎样去面对实际的落地过程中的一些挑战。当时如何构思这本书的框架?
这本书原本计划有十几章,后来因为各种原因,做了一些合并和删减。最后收录进来总共十章。这本书想解决的主要问题是工业大数据项目怎么做可以更快落地。数据创新的不确定性非常高,需要的角色也比较多,业务专家、数据专家和信息技术专家,怎么能更好地协同,这也是我们在好多项目中反复遇到的问题。
前面的七章基本上是按照大数据工程的数据平台、数据分析和数据应用三个版块分别来写的。
第一章田博做了一些认知和概念的厘清。
第二章、第三章张硕博士深入浅出地把大数据平台的选用维度做了实用性对比,比如数据接入需要考虑哪些问题,常见的开源软件选择的准则是什么?要考虑存储量,考虑延迟还是其他什么因素?常见的大数据系统都有什么优缺点,适合什么样的场景?张硕博士花了很多精力,用表格的方式给整理出来了。
第四章,徐地博士谈建模,怎么从业务角度把数据组织起来,用业务语义来描述大数据模型,包括怎么以业务的视角来描述数据,然后怎么再转换到大数据平台和前面的第二、第三章结合起来?
第五章、第六章田博阐述数据分析方法和步骤,怎么做更有效。数据分析存在很多不确定性,特别是依赖当前数据能不能做出来,能不能达到多少精度,包括数据质量有什么问题……这些不接触数据之前都不知道。我们定义敏捷数据分析,而不是精益数据分析,因为精益是节省,敏捷是快,我们当前首要的是创新速度。等我们做了大量数据分析,真的存在大量浪费的时候,再考量精益管理。这两章还介绍了数据分析中的一些形式化或者半形式化方法,怎么让不同知识背景的人员跨领域交流,降低沟通的歧义。
第七章讲工业APP或者叫数字化应用,和传统的IT应用偏向表单和流程不太一样,工业数字化应用更偏向数据,也包括怎么做敏捷开发,这一章是志勇和张浩两位专家写的,贡献了很多有意义的思考。
最后三章是风电、水电和煤矿机械的案例。
三、以书中的内容为背景,尝试解答OT、DT和IT专家的协同问题
3T融合确实是大问题,也是老生常谈的问题。越来越多企业认识到数字化项目的挑战之一就是技术融合。然而并不是大家相互有抵触、有制约,而是各自有一套语言逻辑,导致沟通效率比较低。作为一本技术类的参考书,我们尝试用一些技术手段去解决所谓的协同管理问题。
最核心的是构建协同工作的交互界面,这个交互界面有具象的载体。第四章,在前两章大数据基础平台的基础上探讨了一种载体叫领域数据模型。通过领域建模的方式,一方面能构建业务专家与IT技术专家之间的共同语言,另一方面,能够把专家规则转化成形式化的一个数据模型,构建一个共同讨论的基础和载体,避免不必要的重复学习和重复开发。在项目执行过程中,这个载体会天然演变成OT、IT和DT之间的交互载体,完成不同工种不同共同内容之间的工序衔接。
不仅仅在项目前期,领域模型的作用是贯穿始终的。很多到了运维期的项目要做迭代,哪怕前面的文档梳理都很清楚,换个人接手一堆代码,里面的隐含关系已经不见了。领域模型作为IT、DT、OT融合的框架,不只是从这三个角色上利于前期分工协作,从时间尺度上也是一个很好的载体,能够承载这个项目能够在面对新需求时持续迭代。
四、数字化项目为什么需要工程化、系统化的思维来做,和传统信息化项目实施有何不同?
本书1.3.5提到数字化与信息化的差别,是我们和多个同事探讨的一些观点。
传统的信息化大概有几类,其中一类面向提高协同效率、交易效率,以流程驱动,代表一个状态转移,准确的数据或合适的信息在恰当的时候送给正确的人,从业务上是相对确定的,我们是提高协同效率。有了这些数据,数字化技术才有了基础。
数字化更多解决的是决策的逻辑,比如怎么做预防性维修,怎么做定价优化,甚至有的时候我做个性化推荐。
IBM做信息化的时候,坚持把决策的口子预留出来,且接口要足够灵活,因为决策很难被刻画清楚,有些数据可能不在系统中,有些逻辑也不那么简单。到今天,我们尝试用数字化手段把这个口子填上去。
但是不是真的能填上去,包括有些数据是不是真正反映这个业务的决策逻辑,不一定,要实事求是。业务问题也分很多种,有的问题本身就很清楚,大数据解决的是效率问题,就把它自动化。但有的认知本身很模糊,想提高认知就像做科研,本身就有很强的不确定性,要么从更高的维度,要么用快速验证和迭代来消除不确定性,快速修正。
不确定性是数字化项目中天然存在的属性之一。首先需要客观地去正视它,对项目有合理的预期;然后考虑在这个项目的生命周期中怎样用一些系统的科学的方法,尽量降低这样的不确定性或者降低不确定性带来不利影响。
一方面,用敏捷的方式去应对不确定性。不论是敏捷数据分析,还是领域数据模型,都是为了让项目做得更快速且有序。比如IT面临来自课题的不确定性,很多客户并不完全清楚自己要的是什么,就需要通过快迭代、早发布,每一次都要客户或者是其他的利益关系人,尽早反馈,从反馈中逐步完善。
另一方面,直面不确定性,提高过程的透明度。比如有的数据分析无法确定有效性,那么,可以选择把最终结果和过程一并展示出来,尤其是偏机理类的模型。过程透明,有利于在不确定的前提下和用户去建立更好的信任关系。在业务场景设计,甚至包括应用的交互设计里应用这样的原则,很受用。
五、分析模型的透明化,一方面是从业务逻辑到数据逻辑的透明化;另一方面是数据逻辑到业务逻辑的透明化。
数据模型到底考虑了什么,这个模型在什么地方比较脆弱,依赖什么条件,需要能解释清楚。一个数据分析模型,如果连分析师自己都不知道在什么情况下适用、什么情况下不适用,那肯定是没做到位。
举个例子,石油行业故障诊断是一个特别经典的问题,从八几年开始做,做到现在,用不同的方法看起来都做的不错。但是到了油田之后,现场专家的反馈又不一样。
从技术角度,把模型精度做到90%几,但现场应用到某个系统,正确率到不了25%。在特定的情况下,精度做到98%这不稀奇,因为实验数据为了保障数据质量会消除异常数据,比如换泵、修泵前后的数据揉在一起,然后通过一些手段消除噪音,到现场无法实际应用。
如果在现有条件下,模型很难做出更准确的精度,不如跳出来看专家希望怎么用这个模型,会发现大家对数据模型的期望并不像我们对自己要求那么苛刻。专家只是用来做参考,有时候他们工作的瓶颈不在于工程诊断,而在于数据的整合。把散落在各个信息系统和物联网系统里的数据整合出来对齐,就能节省一半的工作量。另外就是模型,精度高并不能直接降低工作量,反而重要的是把判断准的和不准的给区分开,能非常清晰地分割出哪30%信息是正常工况,不需要关心,判断结论是完全可靠的,就能至少降低30%的工作量。
另一个例子,是工程机械的备件需求预测。当时我们预测模型只做到了百分之70%多到80%左右的精度,当时很自卑。单看论文基本上都是90%几,至少85%,不到85%都不好意思发论文。
然而实际上,在相对保守的订货策略下,模型精度实际哪怕做到60%左右仍然是有效的,在一定特殊的情况下才考虑高精度模型,因为现实中间可能存在冲业绩、市场风控、自然灾害等等因素。要在真正严格的度量下,做到百分之七八十的精度也真的不容易,因为精度丢的都是那些销量特别低的年份,可以不按百分比来处理。
业务专家也不仅仅是靠数据模型才能生活,其实也有很多其他手段可以帮助他们做判断,模型只有直面可解释性,才能真正被用起来。
六、出版这本书的两点遗憾
徐地:上一本书是博士毕业写的,事隔十年发表了个人第二本名字能进封面的书,有两点遗憾。
这个书确实是22年6月成稿。当时我们有一些模模糊糊的想法,确实没写出来。第一,就是我们当时想写的数据工厂,数据从收集到处理到分析到给用户用,特别像是一个生产制造的过程。如果我建立这样一个思维模型的话,其实对项目组织管理和建设都有好处,当时就特别想把我脑子里这个东西写出来,结果失败了。你觉得你想明白了,真正下笔的时候发现还是欠缺。当然这个遗憾,今天被补全了,大家可以去我们的公众号看到钟虓主笔的文章(插链接),把我们从此书成稿到现在的一些思维认知又提升了一步。
第二个遗憾,工程需要人员、技术、方法,我们当时在写这本书的时候,尝试总结两个过程性方法,一个叫STEP-DO是关于数据工程的,一个是ML-OPS是关于数据分析。但在成稿之后过了很长一段时间,我们收到了一个灵魂的拷问,3T融合为什么出来两个方法论?我们也认真思考,对过程方法又进行了一次精化打磨。已经成稿的书中没有办法再展示迭代后的过程方法了,目前在一些企业培训的服务中跟大家分享,效果还不错,自己心里稍微得到了一些平复。
七、有没有下一步的著书计划?
写书最大的问题在拷问自己,灵魂三问:先拷问自己的良知,这本书有没有价值?再问自己想没想清楚?再拷问自己活了这么多年,这些知识到底有没有用?这灵魂三问,让我们写书的时候倍感焦虑。写完之后都不敢看,到现在我们都不敢翻,怕有看见错别字,于心不安。
基于这本书的框架,如果再版,可能会把第五章再扩一扩,写得更具体一些,包括数据工程、数据运维这部分,希望能够经过这几年的摸爬滚打,能把认知再提升一个维度。

昆仑数据K2Data
昆仑数据是工业互联网领域的领军企业,蝉联“中国大数据企业50强”,受邀参与制订《中国制造2025》工业大数据技术路线图,发起成立并主导运营工业大数据制造业创新中心,致力于用大数据和人工智能技术,推动中国工业智慧升级。
 最新文章