数据探索系列 | 为什么会那么多算法,还是做不好工业数据分析?

科技   2024-12-12 18:49   北京  

从最初的数据平台搭建,到现在更深层次的数据价值挖掘,工业数智化不断深入,数据分析已成为推动工业企业创新和增长的重要力量,数据分析师的角色日益凸显。然而,在技术飞速发展的今天,数据分析在工业实践和价值闭环中依旧面临着不少挑战。


一名优秀的数据分析师不仅需要掌握先进的算法和技术,更需要具备深厚的业务理解能力和敏锐的问题发现意识。即使是顶尖的数据科学家,如果没有正确的方法论指导,也可能在复杂多变的实际场景中迷失方向。如何将海量数据转化为切实可行的业务洞察,成为摆在每一位数据分析师面前的难题。


为此,我们特别策划了《工业数据分析之数据探索》系列文章,本系列不仅将探讨如何克服数据探索过程中的种种障碍,还将分享如何构建有效的数据分析闭环,助力企业在激烈的市场竞争中脱颖而出。

本系列文章概览

《为什么会很多算法,还是做不好工业数据分析》:通过常见场景拆解和概念辨析,揭示认知误区,帮助数据分析师更好地理解业务需求与技术实现之间的关系;也为数据分析人才的能力搭配提供思路。


《数据探索:拨开迷雾,寻找最短路径至终点》:界定“数据探索”的概念,并通过实例阐述数据探索的核心目标和内容,帮助读者掌握高效的数据探索方法。


《看图说话:可视化也是数据分析》:探讨基础且关键的“可视化分析”,探讨如何利用恰当的可视化方法发现和解决问题,并为下一步分析寻找思路。


《假设验证:结合业务逻辑寻找答案》:详细阐述数据探索的本质,即构建合理的业务假设,并利用数据与算法进行验证的过程。通过实例帮助读者理解如何将业务逻辑与数据分析紧密结合。


《数据探索结论:技术与业务的衔接》:数据探索的结论及其报告,旨在清晰地向业务部门阐述数据和算法层面的业务逻辑和结论。这些结论可能是正面的,也可能是负面的,但都是工业数据分析向下一步迈进的关键节点和交付成果。


开篇语


随着工业数智化步伐加快,越来越多的企业开始重视数据分析,希望通过先进的算法解决实际问题。但现实往往与理想存在差距——很多时候大家的关注点都在一些新鲜名词和高大上的算法,却难以实现业务价值的有效落地。作为懂算法和开发模型的工业数据分析师,有时候也会觉得无奈:仿佛重拳打在棉花上,使不出劲儿来。


本篇所在的“数据探索”系列文章中,我们将持续探讨在工业数据分析实践中真正遇到的问题,如何通过算法和技术手段实现价值挖掘,并提供一些思考方向。


从设备预测性维护说起


提到工业数据分析,设备预测性维护是绕不开的话题之一。许多文章或项目都聚焦于使用各种“预测”算法如传统的ARIMA模型、或深度学习算法RNN、LSTM,熟悉开源算法库的大约也都听说过Meta公司的Prophet。然而,“预测”问题真的是这个分析场景的核心吗?


实际上,“维护”才是关键所在,即使单纯句法分析:维护才是主体,预测只是定语。预测性维护的核心价值点是能够基于当前设备状态及时发现早期、潜在的故障,从而制定更合理的维护策略。通过提前识别异常情况并采取措施,可以有效避免非计划停机所导致的一系列负面影响,比如备件短缺、生产延误等。因此,真正的挑战在于如何快速而精准地捕捉到这些早期故障征兆,而非预测本身。


算法与业务:双剑合璧


上述案例揭示了一个重要原则:深入理解业务背景比盲目追求技术先进性更加重要。当我们面对一个具体的应用场景时,常常会和用户讨论一个假设性问题:“如果真的有了这样一个解决方案,它将如何被用户实际使用?又怎样才能确保和验证其产生的价值?”换句话说,选择正确的工具(即合适的算法)固然重要,但前提是我们必须明确知道要解决什么样的问题。


一个好的数据分析场景定义,需要的是对业务问题WHO, WHAT, WHY和VALUE的深入回答,而不是HOW。所以类似“基于人工智能算法的设备预测性维护”这样的题目,就不是一个好的场景定义。算法就像是士兵的武器库,拥有更多的武器自然是好事情;然而真正的问题在于,相比手握屠龙刀,我们更需要首先搞清楚:龙是什么,龙在哪里?毕竟,算法只是手段,而最终解决业务问题才是目的。


故障诊断:样本稀缺的挑战


故障诊断是设备预测性维护里一个常见的子课题,其目的是为了识别异常背后的原因,如常见的轴承故障诊断的目标是区分轴承振动异常的原因是:内圈、外圈、滚动体还是滚动架故障。容易想到通过机器学习里的分类模型来区分不同故障模式,但稍有工程经验的都会面临故障样本严重不足的问题。因此工程实践中,结合领域知识以及专家经验设计简化的规则系统反而可能更为实用。由此可见,能否有效将业务逻辑转化为数学语言,并据此选取恰当的技术手段才是成功的关键。


数学建模:业务问题的关键转化


注意到,上段故障诊断问题论述的核心观点是:


通过对业务问题的深入理解,将其转化和描述为一个正确的数学问题,并结合业务知识和现实数据条件,寻找合适的算法解决该数学问题。


相比算法本身,是否能在正确理解一个业务问题背后的逻辑,及其业务价值闭环方式的基础上,能对业务问题进行数学建模,是最关键也最困难的一步。现实中最缺乏的是拥有跨领域能力,既懂算法也懂业务,能正确进行业务问题数学化的能力和相应的复合型人才,这才是目前工业数据分析落地最大的瓶颈。


最好的算法?没有免费的午餐


对于优化算法和机器学习算法领域而言,没有免费午餐定理告诉我们的是:没有通用意义上最好的算法,只有最匹配一类问题的算法。因此,算法学习和研究的意义本身在于是否足够深刻的理解问题本身,以及问题的数学结构,以选择最匹配该问题的算法——AlphaGo的成功,就在于其神经网络结构在一定程度上更好匹配了围棋问题的实质。故障诊断的例子所揭示的道理也是,除了第一步将业务问题进行正确的数学化,数据分析师的专业性则需要保证寻找或设计最合适的算法,而非追求算法的所谓先进性。


工艺优化:从人工经验到机器学习


最后,让我们将上述观点应用到另一个常见的应用场景——工艺优化。传统上,该场景可能被认为是一个典型的优化问题,但实际上很多时候我们需要解决的问题是由于缺乏自动化而导致的人工干预过多所带来的不确定性。而人工经验带来的问题是:人和人之间的经验差异,甚至每个人在不同时候的判断也不一致,这会带来生产过程的不稳定,波动和方差较大;另一方面也存在人的经验传承和培养困难。


注意到,人工经验判断时大多也是依靠当前或历史的工艺数据表现,也就是说:人脑在对原始数据进行特征的粗加工,然后根据这些特征进行的工艺调整行为。这个过程非常类似一个机器学习模型的工作过程,无非是我们需要根据工艺机理和人工经验的总结,将人脑中的“特征加工”过程数学化和定量化,然后基于历史上的人工调整记录和对应的数据特征相合并,构造成一个回归模型或分类模型的训练问题。


结语


本文作为《数据探索》系列的第一篇,核心是想阐述:数据分析在业务应用的落地,往往最大的瓶颈并不在狭义的算法能力上(这部分能力相对标准和清晰,需要什么算法能力再补也来得及),而是在其前一步将业务问题进行“数学建模”的能力;随后才是“数据探索”过程去验证业务问题数学化的正确性,并寻找最匹配算法的过程。


接下来的系列文章中,我们将围绕“数据探索”这一主题进行深入的探讨,如何将业务和数据相结合,寻找数据和算法的有效落地路径,敬请关注!

昆仑数据K2Data
昆仑数据是工业互联网领域的领军企业,蝉联“中国大数据企业50强”,受邀参与制订《中国制造2025》工业大数据技术路线图,发起成立并主导运营工业大数据制造业创新中心,致力于用大数据和人工智能技术,推动中国工业智慧升级。
 最新文章