《工业数据分析工程 基于CRISP-DM的形式化方法》背后的故事

科技   2024-08-29 17:27   北京  
1、什么是形式化方法,工业领域里谈的形式化方法又是什么?
形式化方法英文的名称是formal methods。在逻辑科学中是指分析、研究思维形式结构的方法。在计算机科学和软件工程领域,形式化方法能精确揭示各种逻辑规律,制定相应的逻辑规则,使各种理论体系更加严密。
形式化的目的是为了无歧义地传递计算机或人之间的信息。最好的形式化方法是编译原理,过去在软件工程领域有一些形式化方法,公理化之后能形成一些形式逻辑,并进行形式化建模,像UML、数据库建模等。
早年IBM也提过model对应的business transformation业务模型驱动的业务转型,其含义远超过digital transformation,试图用业务建模的方式,端到端实现从业务场景、业务需求到应用开发,这也是一种形式化的方法。
2、这本书中的形式化方法对工业企业有什么价值?
之前我们出版的一系列专著更多是从内向外看,关注具体的算法、具体的技术路线。但当工业人从外向内看工业数据分析时,很多时候现实情况跟具体的算法、具体的数据技术并不完全匹配。写这本书,希望能让绝大部分工业人从他们的视角能看懂工业数据分析这件事。
从工业企业从外向内去看的时候,在以下两个方面,这套形式化方法会有非常大的帮助。
一、它是一本有关于组织协同的书。这套形式化方法的核心内容在协同,我们有一套“开门、放大象、关门”的过程方法和一些典型的工具手段,需要不同的角色去协同,每个角色需要什么样的职责。
二、从工业企业的CIO/CDO或数据价值产品经理的角度上看,会很容易看到一个有数据价值的产品,从设计、研发到最后生产制造的完整的过程是什么样的。我们可以从管理的角度,从这件事的不确定性里找到一定的确定性,让这件事持续可控。
3、之前出版的《工业大数据分析实践》、《工业大数据分析算法实战》、《工业大数据工程 系统、方法与实践》,和刚刚出版的《工业数据分析工程 基于CRISP-DM的形式化方法》之间的关联关系。
第一本书分析实践,基本上是从设备预测性维护、质量优化、运筹效率提升等相对具象的工业场景出发,分享常用的算法、思路是什么。2018年写完,出版花了点时间,当时大家对场景的认知还没有今天这么成熟,符合当时的需求。
第二本深入浅出讲工业数据分析算法,包括既有的机器学习算法在工业中的应用。
第三本讲工业大数据工程,讲整个企业的数字化系统或平台怎么做,而数据分析只是其中的一部分。
前三本基本上是相辅相成。
第四本是相对独立的一个番外,算是对第一本书做了进一步抽象。在具体场景之外,提供了一个甲方视角或者外部视角,在怎么实现一个数据分析场景的框架下,来看怎么管理工业数据分析这件事。每步做什么,每一步中间我们怎么更好的协同,有没有什么方法,能用更小的代价去实现更快的价值……
跳开具体领域来看,也可以认为是第三本书第五章的一个扩展,提供了一些更具象的方法,例如有没有什么一些常见的建模方法?专家知识怎么描述?数据业务概念怎么刻画?数据质量怎么审查? 等等。
4、从CRISP-DM看提炼形式化方法的难与易
CRISP-DM是数据分析方法论的一个过程方法,全称Cross industry standard process for data mining,八九十年代就提出来了。
形而上的书不好写。写得太实了,就不通用。写得太虚就是把大象关冰箱分三步,执行起来不容易落到实处。一旦要把第二步详细讲讲,不是避实就虚,就是不回答问题,转来转去就把更本质的问题绕过去了。
写工程方法很容易越写越虚,虚到最后都对,但都没什么用。太具体的内容,又太专了,比方就解决某个特定设备的故障,更像操作手册或者一个案例分享,没有泛化的指导意义。所以通用/专用、实/虚中间,尺度特别不好拿捏。
这要求作者基于大量的实践去做一定的抽象,在这基础之上,对整件事情的逻辑框架的构建能力,提出了更高的要求。
5、为什么需要这本实操工具书?对工业企业的意义在哪?
IT人员做应用软件开发的时候,经常会用比如UML去建立领域模型,有自己的软件工程的一套方法论。这本书本身的定位,大家可以理解成工业数据分析领域的“UML”。
在很多分析项目里,工业数据分析师经常会受到一个很大的挑战。工业企业的业主们常常会有一种事情会失控的不安全感。比如分析师在某个阶段停留非常长的时间,我看不到你具体在做什么,我无法理解你在做什么,每天对着一堆数据,一直在加工,日复一日。例如最近某个项目,业务理解加数据理解这两个阶段,我们大概花了两个半月的时间。这对工业企业来讲,是非常大的考验,他们要对你足够信任和足够耐心。
但换个角度看,我们也应该让工业企业的参与方看到你在做什么,哪怕你做的仅仅是一次探索,也要尝试打开来给别人看。书里写到在分析工作的不同阶段,我们分别会做一系列的非常细节的工作。如果不跟到一个具体的分析项目里,你会很难理解为什么会有那么多细粒度的工作,而且很多细粒度的工作不一定对最终的结果有意义。
跟一个传统的企业信息化项目(特别是企业应用软件的建设项目)相比,工业数据分析项目最大的不同在于——它不是从最开始沿着既定的路线就能非常有把控感的一件事。工业数据分析项目在前期的几个工作阶段,会面临着非常大的不确定性的挑战。
为什么尽量把我们在这些年遇到的数据分析工程项目里,在各个阶段经常要去做的一些事、一些做法提炼出来?目的就是让参与各方能看到在每个阶段究竟在干什么。在这个统一的协同框架下,业务专家、数据分析师、IT专家等等都怎么配合。管理人员也能清楚理解每个阶段的目标是什么、价值是什么、产出是什么,在做整个资源规划的时候,知道怎么样去衡量这件事情的进展是否顺利。从这个角度看,这本书对于数字化项目的管理和协同执行,有更强的指导意义和参考意义。
6、怎么去规划这本书的内容?
作为数据分析师,在工业领域中执行CRISP-DM这套方法的过程中,我们会发现哪些地方有一些缺漏,哪些地方有一些断层。比如说场景定义、业务理解、数据理解,书里都会分享,做到什么程度可以算做本阶段完成的一个标志。
数据分析师会做大量的数据挖掘工作,最后可能呈现给业务专家或者用户的只是一些图表。业务专家他们可能不会去理解详细的算法是怎么算的,但他会理解你的逻辑和思路。大家对这件事情的理解是一致的,用互相理解的语言去再做沟通,避免走弯路。产生共鸣后,事情就更好往前去推进了。
书中最重要的几个点:一是分阶段,二是各个角色的协同和理解,三是形式化方法。每一步具体可以采用什么样的框架去做,需要避免哪些陷阱,当时选择这种框架的原因等等。当然不同的框架适用于不同的场景,需要分析师根据具体情况去做选择。
7、回头看这本书的筹备过程,有哪些挑战和启发?
准备这本书的过程中最挑战的是,执笔的分析师团队要改变自己的思维惯性,讲大家以往认为不太重要的内容,觉得理所当然的一些做法,或者下意识的一些判断,都要一步步细化,梳理成框架、步骤。
例如,数据科学家做业务理解,有的项目一看题目,看两眼就觉得能做,愿意接;有的题目就无感,需求也描述清楚了,但就是没感觉有什么兴奋点,如果有选择的话,尽量不做。写这本书的时候就在反思什么叫有感觉,这个感觉是来自于哪里,我们对什么东西有感觉。
首先基本逻辑要对。数据分析能做出有价值的结果,原因是什么,是过去受限于技术条件,业务专家看不到更多的历史数据,看不到更广的关联信息,所以我们通过数据统计能做得更好,还是因为过去做不到实时数据分析或人的波动性比较大? 这些是数据分析可以自然发挥作用的地方,所有数据可解的问题最终都要有可解释性,而不是有个黑科技一突破就行了。从基本逻辑上都不对,我们认为不可能有好的提升。
再例如,什么是好的业务分析?几年前有同事去一个钢铁企业待了两三周,写了一个很好的访谈纪要,作为数据分析师,我特别喜欢这个业务分析给我的输出,但是又说不出来,到底输出到什么程度,我会满意。就算是以此为参照,后来也没有人能给我这么好的输出感觉。
写这本书的时候,我们就在思考,好的输出到底是什么,有什么组成要素。我们用系统动力学来描述机理过程,用领域模型描述业务概念,我们怎么一步步梳理专家的研判规则……
也有客户好奇,我花了这么多钱,请了这么多专业公司治理的数据,积累了这么多年,你一来就告诉我有这么多数据质量问题,你是怎么找出来的?我们潜意识就找出来了。仔细去梳理,其实是用领域模型概念,从数据上去验证这些业务关系,去佐证企业方提供的业务逻辑,就会容易发现偏差甚至矛盾。业务专家的经验肯定有用,但是肯定不严谨,所以我们反过来从数据促进业务理解。
包括模型从开发完到部署,怎么从离线变成一个在线版?出bug经常出在什么地方?里面很多细枝末节。还是要从离线和在线业务逻辑的区别来看,哪些逻辑我要做边界条件判断等等。
我们最初希望严谨一点,在解决某个问题时,希望尽量多列举一些方法来尽量完备地覆盖这个问题。当时我们的业务顾问提醒要抓主要矛盾,三种方法能覆盖60%能有用,就不错了,简单一些,实操性更强。UML提这么多年,现实中极少人严格一步步按照UML做,但你不能否认UML它没有用,这是一个道理。
8、在分析结果之外,可以多关注一些过程性的产出所带来的额外价值
某些数据分析师平时不太在意的过程性的结果,在业务人员看来可能会变得很重要。
例如,某项目分析过程中,在数据探索时,分析师会去提取一些分布特征。某道工序是由不同的班组、不同的人去做同样的操作,从分布的角度看呈现了什么样的规律。这家企业的生产管理部门看到分布结果,认为帮助很大。从数据表现看,原来不同的班组采用的操作策略居然有这么大的差异。企业从生产管理的角度,肯定是要追求一致性策略。这就是可改善的空间。
这本书讲到不同阶段、不同任务的不同做法。读者可以从这个角度去开放思考,可能某一项分析工作并不是最终的产出,但对你现有的工作也有某个方面的价值和提升。
这是业界第一次做这个颗粒度的工业数据分析实操工具书的尝试。这只是一个开始,我们整个数据科学家团队合作的这些课题里,还有大量可以沉淀的内容,能帮助到工业数据价值释放过程里的所有参与者。我们也希望和业内同仁一起将这本书进一步完善和迭代。

昆仑数据K2Data
昆仑数据是工业互联网领域的领军企业,蝉联“中国大数据企业50强”,受邀参与制订《中国制造2025》工业大数据技术路线图,发起成立并主导运营工业大数据制造业创新中心,致力于用大数据和人工智能技术,推动中国工业智慧升级。
 最新文章