1、什么是形式化方法,工业领域里谈的形式化方法又是什么? 形式化方法英文的名称是formal methods。在逻辑科学中是指分析、研究思维形式结构的方法。在计算机科学和软件工程领域,形式化方法能精确揭示各种逻辑规律,制定相应的逻辑规则,使各种理论体系更加严密。形式化的目的是为了无歧义地传递计算机或人之间的信息。最好的形式化方法是编译原理,过去在软件工程领域有一些形式化方法,公理化之后能形成一些形式逻辑,并进行形式化建模,像UML、数据库建模等。早年IBM也提过model对应的business transformation业务模型驱动的业务转型,其含义远超过digital transformation,试图用业务建模的方式,端到端实现从业务场景、业务需求到应用开发,这也是一种形式化的方法。2、这本书中的形式化方法对工业企业有什么价值?之前我们出版的一系列专著更多是从内向外看,关注具体的算法、具体的技术路线。但当工业人从外向内看工业数据分析时,很多时候现实情况跟具体的算法、具体的数据技术并不完全匹配。写这本书,希望能让绝大部分工业人从他们的视角能看懂工业数据分析这件事。从工业企业从外向内去看的时候,在以下两个方面,这套形式化方法会有非常大的帮助。一、它是一本有关于组织协同的书。这套形式化方法的核心内容在协同,我们有一套“开门、放大象、关门”的过程方法和一些典型的工具手段,需要不同的角色去协同,每个角色需要什么样的职责。二、从工业企业的CIO/CDO或数据价值产品经理的角度上看,会很容易看到一个有数据价值的产品,从设计、研发到最后生产制造的完整的过程是什么样的。我们可以从管理的角度,从这件事的不确定性里找到一定的确定性,让这件事持续可控。3、之前出版的《工业大数据分析实践》、《工业大数据分析算法实战》、《工业大数据工程 系统、方法与实践》,和刚刚出版的《工业数据分析工程 基于CRISP-DM的形式化方法》之间的关联关系。第一本书分析实践,基本上是从设备预测性维护、质量优化、运筹效率提升等相对具象的工业场景出发,分享常用的算法、思路是什么。2018年写完,出版花了点时间,当时大家对场景的认知还没有今天这么成熟,符合当时的需求。第二本深入浅出讲工业数据分析算法,包括既有的机器学习算法在工业中的应用。第三本讲工业大数据工程,讲整个企业的数字化系统或平台怎么做,而数据分析只是其中的一部分。前三本基本上是相辅相成。第四本是相对独立的一个番外,算是对第一本书做了进一步抽象。在具体场景之外,提供了一个甲方视角或者外部视角,在怎么实现一个数据分析场景的框架下,来看怎么管理工业数据分析这件事。每步做什么,每一步中间我们怎么更好的协同,有没有什么方法,能用更小的代价去实现更快的价值……跳开具体领域来看,也可以认为是第三本书第五章的一个扩展,提供了一些更具象的方法,例如有没有什么一些常见的建模方法?专家知识怎么描述?数据业务概念怎么刻画?数据质量怎么审查? 等等。4、从CRISP-DM看提炼形式化方法的难与易CRISP-DM是数据分析方法论的一个过程方法,全称Cross industry standard process for data mining,八九十年代就提出来了。形而上的书不好写。写得太实了,就不通用。写得太虚就是把大象关冰箱分三步,执行起来不容易落到实处。一旦要把第二步详细讲讲,不是避实就虚,就是不回答问题,转来转去就把更本质的问题绕过去了。写工程方法很容易越写越虚,虚到最后都对,但都没什么用。太具体的内容,又太专了,比方就解决某个特定设备的故障,更像操作手册或者一个案例分享,没有泛化的指导意义。所以通用/专用、实/虚中间,尺度特别不好拿捏。这要求作者基于大量的实践去做一定的抽象,在这基础之上,对整件事情的逻辑框架的构建能力,提出了更高的要求。5、为什么需要这本实操工具书?对工业企业的意义在哪?IT人员做应用软件开发的时候,经常会用比如UML去建立领域模型,有自己的软件工程的一套方法论。这本书本身的定位,大家可以理解成工业数据分析领域的“UML”。在很多分析项目里,工业数据分析师经常会受到一个很大的挑战。工业企业的业主们常常会有一种事情会失控的不安全感。比如分析师在某个阶段停留非常长的时间,我看不到你具体在做什么,我无法理解你在做什么,每天对着一堆数据,一直在加工,日复一日。例如最近某个项目,业务理解加数据理解这两个阶段,我们大概花了两个半月的时间。这对工业企业来讲,是非常大的考验,他们要对你足够信任和足够耐心。但换个角度看,我们也应该让工业企业的参与方看到你在做什么,哪怕你做的仅仅是一次探索,也要尝试打开来给别人看。书里写到在分析工作的不同阶段,我们分别会做一系列的非常细节的工作。如果不跟到一个具体的分析项目里,你会很难理解为什么会有那么多细粒度的工作,而且很多细粒度的工作不一定对最终的结果有意义。跟一个传统的企业信息化项目(特别是企业应用软件的建设项目)相比,工业数据分析项目最大的不同在于——它不是从最开始沿着既定的路线就能非常有把控感的一件事。工业数据分析项目在前期的几个工作阶段,会面临着非常大的不确定性的挑战。为什么尽量把我们在这些年遇到的数据分析工程项目里,在各个阶段经常要去做的一些事、一些做法提炼出来?目的就是让参与各方能看到在每个阶段究竟在干什么。在这个统一的协同框架下,业务专家、数据分析师、IT专家等等都怎么配合。管理人员也能清楚理解每个阶段的目标是什么、价值是什么、产出是什么,在做整个资源规划的时候,知道怎么样去衡量这件事情的进展是否顺利。从这个角度看,这本书对于数字化项目的管理和协同执行,有更强的指导意义和参考意义。6、怎么去规划这本书的内容?作为数据分析师,在工业领域中执行CRISP-DM这套方法的过程中,我们会发现哪些地方有一些缺漏,哪些地方有一些断层。比如说场景定义、业务理解、数据理解,书里都会分享,做到什么程度可以算做本阶段完成的一个标志。数据分析师会做大量的数据挖掘工作,最后可能呈现给业务专家或者用户的只是一些图表。业务专家他们可能不会去理解详细的算法是怎么算的,但他会理解你的逻辑和思路。大家对这件事情的理解是一致的,用互相理解的语言去再做沟通,避免走弯路。产生共鸣后,事情就更好往前去推进了。书中最重要的几个点:一是分阶段,二是各个角色的协同和理解,三是形式化方法。每一步具体可以采用什么样的框架去做,需要避免哪些陷阱,当时选择这种框架的原因等等。当然不同的框架适用于不同的场景,需要分析师根据具体情况去做选择。7、回头看这本书的筹备过程,有哪些挑战和启发?准备这本书的过程中最挑战的是,执笔的分析师团队要改变自己的思维惯性,讲大家以往认为不太重要的内容,觉得理所当然的一些做法,或者下意识的一些判断,都要一步步细化,梳理成框架、步骤。例如,数据科学家做业务理解,有的项目一看题目,看两眼就觉得能做,愿意接;有的题目就无感,需求也描述清楚了,但就是没感觉有什么兴奋点,如果有选择的话,尽量不做。写这本书的时候就在反思什么叫有感觉,这个感觉是来自于哪里,我们对什么东西有感觉。首先基本逻辑要对。数据分析能做出有价值的结果,原因是什么,是过去受限于技术条件,业务专家看不到更多的历史数据,看不到更广的关联信息,所以我们通过数据统计能做得更好,还是因为过去做不到实时数据分析或人的波动性比较大? 这些是数据分析可以自然发挥作用的地方,所有数据可解的问题最终都要有可解释性,而不是有个黑科技一突破就行了。从基本逻辑上都不对,我们认为不可能有好的提升。再例如,什么是好的业务分析?几年前有同事去一个钢铁企业待了两三周,写了一个很好的访谈纪要,作为数据分析师,我特别喜欢这个业务分析给我的输出,但是又说不出来,到底输出到什么程度,我会满意。就算是以此为参照,后来也没有人能给我这么好的输出感觉。写这本书的时候,我们就在思考,好的输出到底是什么,有什么组成要素。我们用系统动力学来描述机理过程,用领域模型描述业务概念,我们怎么一步步梳理专家的研判规则……也有客户好奇,我花了这么多钱,请了这么多专业公司治理的数据,积累了这么多年,你一来就告诉我有这么多数据质量问题,你是怎么找出来的?我们潜意识就找出来了。仔细去梳理,其实是用领域模型概念,从数据上去验证这些业务关系,去佐证企业方提供的业务逻辑,就会容易发现偏差甚至矛盾。业务专家的经验肯定有用,但是肯定不严谨,所以我们反过来从数据促进业务理解。包括模型从开发完到部署,怎么从离线变成一个在线版?出bug经常出在什么地方?里面很多细枝末节。还是要从离线和在线业务逻辑的区别来看,哪些逻辑我要做边界条件判断等等。我们最初希望严谨一点,在解决某个问题时,希望尽量多列举一些方法来尽量完备地覆盖这个问题。当时我们的业务顾问提醒要抓主要矛盾,三种方法能覆盖60%能有用,就不错了,简单一些,实操性更强。UML提这么多年,现实中极少人严格一步步按照UML做,但你不能否认UML它没有用,这是一个道理。8、在分析结果之外,可以多关注一些过程性的产出所带来的额外价值某些数据分析师平时不太在意的过程性的结果,在业务人员看来可能会变得很重要。例如,某项目分析过程中,在数据探索时,分析师会去提取一些分布特征。某道工序是由不同的班组、不同的人去做同样的操作,从分布的角度看呈现了什么样的规律。这家企业的生产管理部门看到分布结果,认为帮助很大。从数据表现看,原来不同的班组采用的操作策略居然有这么大的差异。企业从生产管理的角度,肯定是要追求一致性策略。这就是可改善的空间。这本书讲到不同阶段、不同任务的不同做法。读者可以从这个角度去开放思考,可能某一项分析工作并不是最终的产出,但对你现有的工作也有某个方面的价值和提升。这是业界第一次做这个颗粒度的工业数据分析实操工具书的尝试。这只是一个开始,我们整个数据科学家团队合作的这些课题里,还有大量可以沉淀的内容,能帮助到工业数据价值释放过程里的所有参与者。我们也希望和业内同仁一起将这本书进一步完善和迭代。