技术干货 | 分析工业时序数据,要额外考虑什么?

科技   科技   2024-01-04 18:09   北京  

时序数据挖掘和一般数据挖掘的本质相同,寻找表面数据背后种的不变量(Invariant),这种不变量可能为变量的分布范围,也可能是多个变量间的关系函数。时序数据与独立同分布数据集的重要区别:相邻点间的时间依赖性,其复杂性来自于1)多尺度,不同尺度上的依赖性不同,不同尺度上的机制不同;2)多变量交互作用。时序算法的本质:如何刻画这种依赖性,如何利用这些依赖性(动态性或则周期性)。

在工业应用,时序分析有如下额外的特点,使得其和一般时序分析有所不同。1)变量间关系存在着部分先验知识,可由定性的因果图或静态/动态方程刻画,为分析建模提供了部分输入;2)存在外生变量的影响(工况)或未知影响因素,例如设备的本身一些状态、一些临时性未被记录的操作动作,数据和模型都需要从业务场景的角度去审视,提高思考的全面性;3)标记数据缺乏或不完备,数据类别严重不均衡;4)时序数据经常存在着中断。

常见的时序监督学习问题如下表所示。时间序列分类常常用于设备异常类型、工况状态识别等场景,用以判断每个给定时序段的类型。根据分类对象,可分为2种情况:1)连续序列中的点分类问题,即判断每个时间点的类型,例如,基于设备的连续状态监测数据,判断设备是否处于正常状态,或出现了某种故障状态;2)短时序的分类问题,即判断一个时序的类别,例如,根据检测数据(如手持仪器的检测数据)进行设备状态类别研判,又如,根据批次生产过程数据(例如,每支钢轨的轧制过程、生物发酵过程),研判产品质量。


对象

描述

处理方式

分类



在某个时间点上发生了异常事件

每个时间点的结果是一个类别变量(例如,水质水平)

转化为预测问题(距离事件点的远近的风险值)

滑动窗口转为短TS分类


短序列分类

一个短时序是一个类别。例如,每支钢的轧制过程、每个发酵批次

TS Classification

每条时序提取特征;时序间可以可以做聚类

预测



例如,钢铁价格预测、备件销售量

通过滑动窗口,提取特征,将其转化为经典回归问题

构建动力学模型

基础的时序结构处理方法包括,1)隐含状态及其转移规律的提取,采用ARIMA、HMM、状态方程、LSTM等算法;2)获取典型形态,例如Subsequence pattern template (shapelet)、SAX等方法;3)频域特征或时频域特征,通常采用FFT、Wavelet等算法;4)结构简化,典型算法包括Sparse FFT、Sparse PCA、PCA、SOM、RBM等。

在多尺度、多变量、时序依赖度等维度上,也有不少常用的算法组合策略,例如,用Wavelet提取多尺度的时空特征,然后采用PCA/CNN做特征降维或提取;利用SOM/RBM进行子空间(Subspace)提取,然后利用CNN等分类算法进行建模。

本文节选自田春华博士著作《工业大数据分析算法实战


田春华博士著作《工业大数据分析算法实战》,从工科人的视角介绍算法,从分析实战的角度展示算法的应用,帮助工科背景读者建立起数据思维,灵活利用数据分析算法进行实际问题的建模,并实现分析项目的高效迭代与落地。





昆仑数据K2Data
昆仑数据是工业互联网领域的领军企业,蝉联“中国大数据企业50强”,受邀参与制订《中国制造2025》工业大数据技术路线图,发起成立并主导运营工业大数据制造业创新中心,致力于用大数据和人工智能技术,推动中国工业智慧升级。
 最新文章