首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
直播回顾 | 《工业大数据工程 系统、方法与实践》背后的故事
科技
2024-03-14 18:27
北京
一、是什么动机或初衷促使大家一起编写这本书?
这本书的初稿完成在22年6月份,因为口罩原因,近期才面市。这是我们出版的第三本书,前两本主要是讲数据分析。第一本《工业大数据分析实践》,内部代号黑书,主要是讲工业大数据分析怎么定义问题,典型的工业大数据分析课题有哪些。第二本《工业大数据分析算法实战》主要讲不同的算法在工业场景下的使用。工业大数据的应用是一个系统性工程,数据分析只是其中一个方面,所以我们希望找机会把工业大数据工程和系统方面的知识梳理一下。这本书的出版有一定必然性,但在这个时间点出版也有一定的偶然性。
这本书中的数据工程相关的内容,一开始并不是奔着出书去梳理的,而是当时在工程中确实碰到了一些问题,凭着我们的直观感受,认为找到了一些正确的方式方法。为求谨慎,开始博览群书,翻阅了大量的资料,希望将这些方式方法变得更完善一些,于是催生和沉淀了相关内容。此外,很多K2行业专家也贡献了不少知识和想法。
工业大数据技术的发展到了今天,围绕着一个数字化工程或者数字化项目怎么去做,应该有更成熟的套路和章法,让大家少走弯路。这也是出版这本书的初衷。
二、这本书按照一个相对完整的跨度,介绍数字化项目过程中,怎样去面对实际的落地过程中的一些挑战。当时如何构思这本书的框架?
这本书原本计划有十几章,后来因为各种原因,做了一些合并和删减。最后收录进来总共十章。这本书想解决的主要问题是工业大数据项目怎么做可以更快落地。数据创新的不确定性非常高,需要的角色也比较多,业务专家、数据专家和信息技术专家,怎么能更好地协同,这也是我们在好多项目中反复遇到的问题。
前面的七章基本上是按照大数据工程的数据平台、数据分析和数据应用三个版块分别来写的。
第一章田博做了一些认知和概念的厘清。
第二章、第三章张硕博士深入浅出地把大数据平台的选用维度做了实用性对比,比如数据接入需要考虑哪些问题,常见的开源软件选择的准则是什么?要考虑存储量,考虑延迟还是其他什么因素?常见的大数据系统都有什么优缺点,适合什么样的场景?张硕博士花了很多精力,用表格的方式给整理出来了。
第四章,徐地博士谈建模,怎么从业务角度把数据组织起来,用业务语义来描述大数据模型,包括怎么以业务的视角来描述数据,然后怎么再转换到大数据平台和前面的第二、第三章结合起来?
第五章、第六章田博阐述数据分析方法和步骤,怎么做更有效。数据分析存在很多不确定性,特别是依赖当前数据能不能做出来,能不能达到多少精度,包括数据质量有什么问题……这些不接触数据之前都不知道。我们定义敏捷数据分析,而不是精益数据分析,因为精益是节省,敏捷是快,我们当前首要的是创新速度。等我们做了大量数据分析,真的存在大量浪费的时候,再考量精益管理。这两章还介绍了数据分析中的一些形式化或者半形式化方法,怎么让不同知识背景的人员跨领域交流,降低沟通的歧义。
第七章讲工业APP或者叫数字化应用,和传统的IT应用偏向表单和流程不太一样,工业数字化应用更偏向数据,也包括怎么做敏捷开发,这一章是志勇和张浩两位专家写的,贡献了很多有意义的思考。
最后三章是风电、水电和煤矿机械的案例。
三、以书中的内容为背景,尝试解答OT、DT和IT专家的协同问题
3T融合确实是大问题,也是老生常谈的问题。越来越多企业认识到数字化项目的挑战之一就是技术融合。然而并不是大家相互有抵触、有制约,而是各自有一套语言逻辑,导致沟通效率比较低。作为一本技术类的参考书,我们尝试用一些技术手段去解决所谓的协同管理问题。
最核心的是构建协同工作的交互界面,这个交互界面有具象的载体。第四章,在前两章大数据基础平台的基础上探讨了一种载体叫领域数据模型。通过领域建模的方式,一方面能构建业务专家与IT技术专家之间的共同语言,另一方面,能够把专家规则转化成形式化的一个数据模型,构建一个共同讨论的基础和载体,避免不必要的重复学习和重复开发。在项目执行过程中,这个载体会天然演变成OT、IT和DT之间的交互载体,完成不同工种不同共同内容之间的工序衔接。
不仅仅在项目前期,领域模型的作用是贯穿始终的。很多到了运维期的项目要做迭代,哪怕前面的文档梳理都很清楚,换个人接手一堆代码,里面的隐含关系已经不见了。领域模型作为IT、DT、OT融合的框架,不只是从这三个角色上利于前期分工协作,从时间尺度上也是一个很好的载体,能够承载这个项目能够在面对新需求时持续迭代。
四、数字化项目为什么需要工程化、系统化的思维来做,和传统信息化项目实施有何不同?
本书1.3.5提到数字化与信息化的差别,是我们和多个同事探讨的一些观点。
传统的信息化大概有几类,其中一类面向提高协同效率、交易效率,以流程驱动,代表一个状态转移,准确的数据或合适的信息在恰当的时候送给正确的人,从业务上是相对确定的,我们是提高协同效率。有了这些数据,数字化技术才有了基础。
数字化更多解决的是决策的逻辑,比如怎么做预防性维修,怎么做定价优化,甚至有的时候我做个性化推荐。
IBM做信息化的时候,坚持把决策的口子预留出来,且接口要足够灵活,因为决策很难被刻画清楚,有些数据可能不在系统中,有些逻辑也不那么简单。到今天,我们尝试用数字化手段把这个口子填上去。
但是不是真的能填上去,包括有些数据是不是真正反映这个业务的决策逻辑,不一定,要实事求是。业务问题也分很多种,有的问题本身就很清楚,大数据解决的是效率问题,就把它自动化。但有的认知本身很模糊,想提高认知就像做科研,本身就有很强的不确定性,要么从更高的维度,要么用快速验证和迭代来消除不确定性,快速修正。
不确定性是数字化项目中天然存在的属性之一。首先需要客观地去正视它,对项目有合理的预期;然后考虑在这个项目的生命周期中怎样用一些系统的科学的方法,尽量降低这样的不确定性或者降低不确定性带来不利影响。
一方面,用敏捷的方式去应对不确定性。不论是敏捷数据分析,还是领域数据模型,都是为了让项目做得更快速且有序。比如IT面临来自课题的不确定性,很多客户并不完全清楚自己要的是什么,就需要通过快迭代、早发布,每一次都要客户或者是其他的利益关系人,尽早反馈,从反馈中逐步完善。
另一方面,直面不确定性,提高过程的透明度。比如有的数据分析无法确定有效性,那么,可以选择把最终结果和过程一并展示出来,尤其是偏机理类的模型。过程透明,有利于在不确定的前提下和用户去建立更好的信任关系。在业务场景设计,甚至包括应用的交互设计里应用这样的原则,很受用。
五、分析模型的透明化,一方面是从业务逻辑到数据逻辑的透明化;另一方面是数据逻辑到业务逻辑的透明化。
数据模型到底考虑了什么,这个模型在什么地方比较脆弱,依赖什么条件,需要能解释清楚。一个数据分析模型,如果连分析师自己都不知道在什么情况下适用、什么情况下不适用,那肯定是没做到位。
举个例子,石油行业故障诊断是一个特别经典的问题,从八几年开始做,做到现在,用不同的方法看起来都做的不错。但是到了油田之后,现场专家的反馈又不一样。
从技术角度,把模型精度做到90%几,但现场应用到某个系统,正确率到不了25%。在特定的情况下,精度做到98%这不稀奇,因为实验数据为了保障数据质量会消除异常数据,比如换泵、修泵前后的数据揉在一起,然后通过一些手段消除噪音,到现场无法实际应用。
如果在现有条件下,模型很难做出更准确的精度,不如跳出来看专家希望怎么用这个模型,会发现大家对数据模型的期望并不像我们对自己要求那么苛刻。专家只是用来做参考,有时候他们工作的瓶颈不在于工程诊断,而在于数据的整合。把散落在各个信息系统和物联网系统里的数据整合出来对齐,就能节省一半的工作量。另外就是模型,精度高并不能直接降低工作量,反而重要的是把判断准的和不准的给区分开,能非常清晰地分割出哪30%信息是正常工况,不需要关心,判断结论是完全可靠的,就能至少降低30%的工作量。
另一个例子,是工程机械的备件需求预测。当时我们预测模型只做到了百分之70%多到80%左右的精度,当时很自卑。单看论文基本上都是90%几,至少85%,不到85%都不好意思发论文。
然而实际上,在相对保守的订货策略下,模型精度实际哪怕做到60%左右仍然是有效的,在一定特殊的情况下才考虑高精度模型,因为现实中间可能存在冲业绩、市场风控、自然灾害等等因素。要在真正严格的度量下,做到百分之七八十的精度也真的不容易,因为精度丢的都是那些销量特别低的年份,可以不按百分比来处理。
业务专家也不仅仅是靠数据模型才能生活,其实也有很多其他手段可以帮助他们做判断,模型只有直面可解释性,才能真正被用起来。
六、出版这本书的两点遗憾
徐地:上一本书是博士毕业写的,事隔十年发表了个人第二本名字能进封面的书,有两点遗憾。
这个书确实是22年6月成稿。当时我们有一些模模糊糊的想法,确实没写出来。第一,就是我们当时想写的数据工厂,数据从收集到处理到分析到给用户用,特别像是一个生产制造的过程。如果我建立这样一个思维模型的话,其实对项目组织管理和建设都有好处,当时就特别想把我脑子里这个东西写出来,结果失败了。你觉得你想明白了,真正下笔的时候发现还是欠缺。当然这个遗憾,今天被补全了,大家可以去我们的公众号看到钟虓主笔的文章(插链接),把我们从此书成稿到现在的一些思维认知又提升了一步。
第二个遗憾,工程需要人员、技术、方法,我们当时在写这本书的时候,尝试总结两个过程性方法,一个叫STEP-DO是关于数据工程的,一个是ML-OPS是关于数据分析。但在成稿之后过了很长一段时间,我们收到了一个灵魂的拷问,3T融合为什么出来两个方法论?我们也认真思考,对过程方法又进行了一次精化打磨。已经成稿的书中没有办法再展示迭代后的过程方法了,目前在一些企业培训的服务中跟大家分享,效果还不错,自己心里稍微得到了一些平复。
七、有没有下一步的著书计划?
写书最大的问题在拷问自己,灵魂三问:先拷问自己的良知,这本书有没有价值?再问自己想没想清楚?再拷问自己活了这么多年,这些知识到底有没有用?这灵魂三问,让我们写书的时候倍感焦虑。写完之后都不敢看,到现在我们都不敢翻,怕有看见错别字,于心不安。
基于这本书的框架,如果再版,可能会把第五章再扩一扩,写得更具体一些,包括数据工程、数据运维这部分,希望能够经过这几年的摸爬滚打,能把认知再提升一个维度。
昆仑数据K2Data
昆仑数据是工业互联网领域的领军企业,蝉联“中国大数据企业50强”,受邀参与制订《中国制造2025》工业大数据技术路线图,发起成立并主导运营工业大数据制造业创新中心,致力于用大数据和人工智能技术,推动中国工业智慧升级。
最新文章
数据探索系列 | 可视化是拨乱反正的关键一步
昆仑数据K2Assets入选2024年北京市工业互联网平台名单
陆薇博士应邀在《ACM通讯》发表文章
数据探索系列:拨开迷雾,找到一条通往终点的最短路
数据探索系列 | 为什么会那么多算法,还是做不好工业数据分析?
2024爱分析·数据要素x厂商全景报告
K2动态 | 《国家工业互联网大数据中心工业智算基地评估规范》正式发布
技术干货 | 工业数据分析的3种载体形式
昆仑数据受邀出席数智化促进核能新质生产力发展会议
技术干货 | 分析场景识别中的常见问题
清洁能源数字化的现状、趋势和未来
直播预告 | 清洁能源数字化现状、趋势和未来
伺服电机滚动轴承的智能化寿命预测
工业数智化趋势和需求是什么?向数据要更多价值
昆仑数据亮相CCKS 2024全国知识图谱与语义计算大会
技术干货 | 大模型在工业数据分析过程中的典型用例(下)
技术干货 | 大模型在工业数据分析过程中的典型用例(上)
《工业数据分析工程 基于CRISP-DM的形式化方法》背后的故事
新书上架 |《工业数据分析工程 -- 基于CRISP DM的形式化方法》
直播回顾 | 工业数据分析模型的规模化应用,如何做?
中国工业大数据创新发展联盟数据资源管理与应用专委会启动会暨工业互联网大数据技术工业和信息化部重点实验室技术交流会顺利召开
直播预告 | 工业数据分析模型的规模化应用,如何做?(下)
工业数据分析模型的规模化应用,难在哪?
重磅 |《工业互联网平台 工业机理模型开发指南》国家标准正式发布
直播预告 | 工业数据分析模型的规模化应用,难在哪?From Science to Engineering
工业数据分析竞赛的那些事儿
四川省工业大数据创新中心入驻成都AI创新中心
直播预告 | 从时序数据库IoTDB看工业数据管理难题何解
直播预告 | 工业数据分析竞赛的“秘笈”与启示
人工智能如何赋能先进制造业?“工业人工智能研讨会”举办
直播回顾 | 工业大模型落地新范式
直播预告 | 工业大模型落地新范式
快讯 | 昆山工业大数据创新中心正式启动!
2024首期制造业数智化转型高级研修班于昆山开课
直播预告 | SCRUM敏捷开发在工业数智化研发中的应用
读者反馈 | 如何用《工业大数据工程:系统、方法与实践》解决工作中的具体问题
即将截止 | 中国工业大数据创新发展联盟专业委员会征集会员单位
直播回顾 | 《工业大数据工程 系统、方法与实践》背后的故事
征集 | 中国工业大数据创新发展联盟专业委员会征集会员单位
工业数据要素管理中的“人-机-料-法-测-环” (下)
直播预告 | 工业大数据工程 系统、方法与实践
技术干货 | 面向领域的工业大数据系统技术
第三届工业数字孪生大赛全国总决赛及颁奖典礼成功举办
请回答2023 | 向数据要价值 向人才要答案
产业元宇宙,打开发展新空间
工业数据要素管理中的“人-机-料-法-测-环” (上)
陆薇荐书 | 我眼中的《工业大数据工程 系统、方法与实践》
新书上架 |《工业大数据工程 系统、方法与实践》
技术干货 | 分析工业时序数据,要额外考虑什么?
我中心当选中国工业大数据创新发展联盟理事单位
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉