数据探索系列:拨开迷雾,找到一条通往终点的最短路

科技   2024-12-19 18:45   北京  

前篇提到“数据探索”是一个验证业务问题数学化的正确性,并寻找最匹配算法的过程,本篇主要透过数据分析师的视野,深入探讨“数据探索”的本质,探究实现高效数据探索的核心要素与精髓所在。


1、数据探索:场景分析的前哨战


如果要对数据探索给一个最简洁的定位,那么“数据探索是对场景可行性的回答,是消除场景落地过程中不确定性的关键一环”。


从文字游戏的角度上来看数据探索,其实就是在“数据”上进行“探索”。例如“通过焊接机器人的电流数据能否实现运行工况切分”,“通过生产质量数据和过站数据能否分析生产异常的集中性”,“通过生产运行参数和结果能否进行工艺参数的优化推荐”,数据探索就是在验证数据是否满足分析场景的业务假设。


数据探索的出发点一定是问题性,需要经过探索的工作来进行验证,具备典型的研究特性,需要通过各种技术路线进行对比分析,从而选取最优的方法作为研究方案。同样,数据探索的过程一定是发散的,通过一层层的拆解和适当简化,剥离原始问题的外衣,验证一个又一个的数据假设,逐个形成数据结论,最终收敛到解题的终点,给出场景可行性的回答。

数据探索有别于模型开发,可行性的验证不需要做到尽善尽美,但要速战速决。数据探索是从问题起点先发散后收敛到回答终点的网状结构,在其中找到一条最快的路线就完成探索求解,因此数据探索是用最小代价去找到一条可行的解题思路,并且在有限的数据中进行验证。


2、数据探索的解题钥匙


2.1   问题拆解

前文提到“数据可用”或是“最小代价”,其实都在强调数据探索要抓主要矛盾去回答业务场景的可行性。对于业务场景的问题类型,大致有两类:一类是选择判断题,起点明确,终点明确,比如某个工艺参数的波动是否影响产品良率;另一类则是问答题,起点也明确,但终点不明确,比如定位影响产品良率的关键参数。显而第一类问题更容易回答,而实际场景中更为常见的恰恰是第二类问题。但有意思的是,第二类问题可以经过不断拆解形成一组第一类问题的集合,例如通过分析关键工艺参数组合里的每个工艺参数波动对产品良率是否有影响,来实现产品良率关键参数的定位。


影响数据探索的因素有很多,比如问题理解是否透彻、问题的抽象转化是否清晰、模型知识储备是否完善等等,但应对复杂场景的数据探索,最重要的一点就是“解题思路”。上文提到的两类问题的拆解,其实就是数据探索解题思路的一种简单形式。在数据探索的题目和答案解之间一定是一条链路,但如何有效拆解问题到子问题,形成阶段性的回答,每个子问题的回答一定是发散的,但最后在合适的阶段又会收敛到一个答案上。


例如,我们在做工艺质量异常定位的分析场景时,从定义关键的质量指标,到分析质量异常的影响因子(人、工艺、材料、设备等等)进行逐层拆解,再到因子组合识别异常根因,就是在从发散到收敛的一个过程。


2.2   因果链

揭开数据探索迷雾面纱的关键钥匙如果只有一把,那一定是“因果链”。在工业数据分析领域,每一个奇妙的数据现象对应的都是业务规律的缩影,或是机器运转的规律,或是化工过程的反应机理,亦或是现场管理的措施,但数据中规律产生的客观原因一定存在。在整体思路形成时,一定是按照因果关系去进行问题拆解,根据业务理解去梳理问题的相关影响维度,并组织收集数据,从而拆解成子问题。


而在探索过程中,面对数据的表现更需时刻保持因果推断的思路,为什么数据表现是这样,有没有其他角度来看这组数据,这组数据会对后续其他指标有什么影响……不怕解题思路有偏差,就怕没有解题思路,而保持因果链的思维去看待问题,在收集到的有限数据中一定能够找到可以进行分析的切角。


典型案例:“通过设备数据和生产质量结果数据进行控制参数的优化”。要求解的问题目标是优化后的控制参数,本质上是探求控制参数如何影响生产质量,在此基础上求解最优的控制参数。那么我们首先考虑,控制参数属于生产设备,控制参数的调整则是设备运行状态的改变,这是设备控制的机理。而设备状态参数所代表的实际工艺生产条件,则是直接影响生产结果的重要因素。因此,从因果链的角度,控制参数的优化可拆解为三个子问题,(1)控制参数与设备状态参数之间的关系,代表设备的运行机理探索;(2)设备状态参数与生产结果之间的关系,代表生产原理探索;(3)以最优生产质量为目标,求解最优的控制参数。至于采用何种方法或是算法,分别解决这两个子问题,就是探索过程中的发散性研究了。



从业务场景的探索难度上来看,由因到果和由果到因的分析难度是存在明显差异的。由因到果的分析场景,例如典型的预测问题,如负荷预测、虚拟测量、指标趋势预测等等,这类场景相对容易得到一个可行解,因子越多效果越好,可以逐渐提升。而由果到因的分析场景,例如典型的故障诊断、质量异常追溯、优化问题等,往往探索难度更大,对因子的完整性要求更高,要保持足够的敏感性,在业务理解时尽可能地收集更多的输入,减少探索过程的迭代,在解题思路形成过程中少走弯路。


另外,数据探索是业务可行性的回答,并不是所有的业务分析场景都是可落地的,“无解”也是一种答案,但是探索过程中发现的造成无解的原因,都是场景建设中积累的宝贵经验。


3、探索高手:快速走出新手村


在形成解题思路后,能够解决每个子问题,就能把场景的回答串起来了,也就能完成一次及格的数据探索。但是在实际执行的过程中会发现,每个子问题的研究是发散的,对应的解题思路有很多种,求解到什么程度能够满足场景要求,在经验不足时往往花费大量的时间精力去遍历解题路径,产出效率低。


在数据探索中,最快提升熟练度的方式就是“剪枝”。将每个子问题的完成度归类为基本解、最优解或是无解,通过快速识别子问题的完成度,防止进入发散的漩涡中。在探索过程中时刻保持收敛的思维,即使找到了很有趣的点,但不是业务的关键影响点,及时停下来,但在必要时可和业务确认(这种往往是业务理解不足造成的缺失,会在数据探索过程中去补课)。


做好数据探索当然也离不开扎实的分析技巧,尤其是如何有效地链接业务逻辑与数据现象的映射解读。作为数据探索的两大核心技巧,一个是从数据中解读业务现象的“看图说话”,另一个是从业务出发在数据中进行逻辑验证的“假设验证”,两者相辅相成,犹如双剑合璧,在数据探索的迷雾中披荆斩棘。详细技巧探讨,请看本系列文章的下回分解。


结语


总而言之,“数据探索”就是基于业务理解和确定的数据维度去构造一条通往终点的最短路,问题的不断拆解是基本方法,基于因果链的分析是关键钥匙。至于路通不通,是在探索的过程中将迷雾拨开去回答的,总要有人去尝试,万一通了呢?


本系列文章概览

《为什么会很多算法,还是做不好工业数据分析》:通过常见场景拆解和概念辨析,揭示认知误区,帮助数据分析师更好地理解业务需求与技术实现之间的关系;也为数据分析人才的能力搭配提供思路。


《数据探索:拨开迷雾,寻找最短路径至终点》:界定“数据探索”的概念,并通过实例阐述数据探索的核心目标和内容,帮助读者掌握高效的数据探索方法。


《看图说话:可视化也是数据分析》:探讨基础且关键的“可视化分析”,探讨如何利用恰当的可视化方法发现和解决问题,并为下一步分析寻找思路。


《假设验证:结合业务逻辑寻找答案》:详细阐述数据探索的本质,即构建合理的业务假设,并利用数据与算法进行验证的过程。通过实例帮助读者理解如何将业务逻辑与数据分析紧密结合。


《数据探索结论:技术与业务的衔接》:数据探索的结论及其报告,旨在清晰地向业务部门阐述数据和算法层面的业务逻辑和结论。这些结论可能是正面的,也可能是负面的,但都是工业数据分析向下一步迈进的关键节点和交付成果。



昆仑数据K2Data
昆仑数据是工业互联网领域的领军企业,蝉联“中国大数据企业50强”,受邀参与制订《中国制造2025》工业大数据技术路线图,发起成立并主导运营工业大数据制造业创新中心,致力于用大数据和人工智能技术,推动中国工业智慧升级。
 最新文章