埃某哲大数据挖掘与分析方法论以CRISP-DM框架为核心,涵盖业务理解至部署六阶段,确保系统性与有效性。分析方法涉及数据清洗、探索、分类、回归、聚类、关联规则及时间序列等,运用统计与机器学习技术揭示数据内在规律。支撑工具推荐SAS、SPSS Clementine、R、Stata及MATLAB等主流软件,结合Eviews、Minitab与WEKA,满足多样化分析需求,提升效率与精度,助力企业精准决策与业务优化。
第一章:大数据挖掘与分析方法论框架
1.1 概述
数据分析的定义:数据分析是从数据、信息到知识的过程,需要数学理论、行业经验以及计算机工具三者结合。
数据分析的误区:不了解分析模型的数学原理会导致错误使用模型,得出错误结论,影响业务决策。
数据挖掘的重要性:数据挖掘是挖掘数据背后隐藏知识的重要手段,利用统计学和人工智能技术封装复杂技术,使分析人员专注于解决问题。
1.2 数据分析流程
CRISP-DM框架:该框架由SIG组织于90年代提出,被业界广泛认可,包括六个主要阶段:
业务理解:确定目标,明确分析需求。
数据理解:收集原始数据,描述数据,探索数据,检验数据质量。
数据准备:选择数据,清洗数据,构造数据,整合数据,格式化数据。
建立模型:选择建模技术,参数调优,生成测试计划,构建模型。
评估模型:对模型进行全面评价,评估结果,重审过程。
部署:将分析结果应用于业务实践,改进模型。
第二章:大数据挖掘与分析方法
2.1 数据清洗与数据探索
2.1.1 数据清洗
(1)异常值判别:
方法:拉依达准则、肖维勒准则、格拉布斯准则、狄克逊准则、t检验。
注意事项:慎重对待删除异常值,可结合多种统计判别法,并寻找异常值出现的原因。
(2)缺失值处理:
方法:平均值填充、K最近距离法、回归法、极大似然估计法、多重插补法。
大数据模式下的考虑:在大数据模式下,数据清洗可忽略异常值和缺失值的影响,侧重对数据结构合理性的分析。
2.1.2 数据探索
(1)数据特征描述:
中心位置:众数、中位数、四分位数、均值。
分散程度:方差、标准差、极差、四分位差、标准分数(z-score)、离散系数。
图形特征:偏度、峰度。
(2)数据概率分布:
离散分布:二项分布、几何分布、泊松分布。
连续分布:均匀分布、指数分布、正态分布。
(3)假设检验:
参数检验:在数据分布已知的情况下,对数据分布的参数进行检验。
非参数检验:在数据分布未知的情况下,检验数据的分布情况。
2.1.3 相关性分析与主成分分析
(1)相关性分析:
目的:探索数据间的关系,剔除重复因素,优化数据结构。
方法:Pearson相关系数、Spearman秩相关系数、Kendall相关系数、偏相关分析。
显著性检验:T检验。
(2)主成分分析:
目的:从原始变量中导出少数几个主分量,尽可能多地保留原始变量的信息,且彼此间互不相关。
应用:数据的压缩和解释,寻找和简化判断事物或现象的综合指标。
2.2 分类与回归
2.2.1 分类
(1)定义:按照某种指定的属性特征将数据归类,获得分类函数或分类模型。
(2)应用:提取描述重要数据类的模型或预测未来的数据趋势。
(3)主要算法:KNN算法、决策树(CART、C4.5等)、SVM算法、贝叶斯算法、BP神经网络。
(4)模型评估:
效果指标:准确率、敏感性、特异性、精度、KS值、Lift值等。
测试集选取方法:保持法、随机二次抽样、交叉验证、自助法等。
评估图表:混淆矩阵、ROC曲线、KS曲线、Lift图、响应率曲线、捕获率曲线。
2.2.2 回归
(1)定义:寻找自变量和因变量之间相关关系的模型,分为线性回归和非线性回归。
(2)前提假设:正态性假设、零均值性假设、等方差性假设、独立性假设。
(3)检验方法:F检验(模型显著性)、t检验(系数显著性)、残差检验(正态性及独立性)。
(4)应用:因果关系分析的基础,通过最小二乘法得到各属性与目标之间的线性系数。
2.3 聚类分析
(1)定义:对具有共同趋势或结构的数据进行分组,使簇内数据差别尽可能小,簇间数据差别尽可能大。
(2)主要算法:
基于划分的聚类:K-均值法、K-中心点算法。
基于层次的聚类:CURE、Chameleon、BIRCH、Agglomerative。
基于密度的聚类:DBSCAN、OPTICS、DENCLUE。
基于网格的聚类:STING、WareCluster、CLIQUE。
基于模型的聚类:COBWEB、神经网络算法。
(3)模型评估:评估聚类效果、确定合适的分类数量、选择聚类模型。
2.4 关联规则
(1)定义:找出数据集合中隐藏的关联网,是离散变量因果分析的基础。
(2)主要算法:Apriori算法、FP-growth算法。
(3)评估指标:
对称度量指标:支持度。
非对称度量指标:置信度、兴趣因子、相关性、余弦、Jaccard、集体强度等。
主观度量:可视化、基于主观模板的度量、基于主观兴趣的度量。
2.5 时间序列分析
(1)定义:按时间顺序排列的一组数字序列,包括长期趋势、季节变动、循环变动、不规则变动。
(2)建模步骤:取得动态数据,进行相关分析,辨识合适的随机模型,进行曲线拟合。
(3)主要算法:平滑法预测、ARIMA模型预测。
(4)ARIMA模型:
定义:自回归求积移动平均模型,适用于存在序列相关的非平稳时间序列。
组成:AR(p)模型、MA(q)模型、ARMA(p,q)模型、ARIMA(p,d,q)模型。
2.6 结构优化算法
2.6.1 遗传算法
(1)定义:一种搜索启发式算法,用于解决最优化问题,借鉴了进化生物学中的遗传、突变、自然选择等现象。
(2)特点:
从问题解的串集开始搜索,而不是单个解。
同时处理多个个体,减少陷入局部最优解的风险。
采用概率变迁规则指导搜索方向。
具有自组织、自适应和自学习性。
2.6.2 灰色理论
(1)定义:处理“部分信息已知,部分信息未知”的“小样本”、“贫信息”不确定性系统的理论。
(2)应用:数列预测、灾变与异常值预测、季节灾变与异常值预测、拓扑预测、系统预测。
第三章:大数据挖掘与分析支撑工具
3.1 常用数据分析工具概述
SAS:用于决策支持的大型集成信息系统,包括BASE SAS模块、SAS/STAT(统计分析模块)、SAS/GRAPH(绘图模块)等。
SPSS Clementine:图形化操作界面的数据挖掘工具平台,提供CRM CAT、Web CAT、cTelco CAT等应用模板。
R:自由软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘,内置多种统计学及数字分析功能。
Stata:小型统计软件,统计分析能力强大,特别是在生存数据分析、纵向数据分析等方面。
MATLAB:商业数学软件,用于算法开发、数据可视化、数据分析及数值计算,具有高效的数值计算和符号计算功能。
3.2 数据分析工具详细介绍
3.2.1 SAS
历史与发展:由北卡罗来纳大学两位生物统计学研究生编制,现已成为全球领先的统计分析软件。
模块组成:包括BASE SAS模块、SAS/STAT、SAS/GRAPH、SAS/QC、SAS/ETS、SAS/OR、SAS/IML、SAS/AF、SAS/FSP等。
应用领域:政府行政管理、科研、教育、生产和金融等不同领域。
3.2.2 SPSS Clementine
历史与发展:由ISL公司开发,后被SPSS公司收购,成为SPSS公司的亮点产品。
特点:图形化操作界面,可视化数据挖掘过程,提供Text Mining、Web Mining等功能,支持多种应用模板。
3.2.3 R
历史与发展:由新西兰奥克兰大学的Ross Ihaka和Robert Gentleman开发,现在由“R开发核心团队”负责开发。
特点:命令行操作,内置多种统计学及数字分析功能,强大的绘图功能,可安装包增强功能。
3.2.4 Stata
历史与发展:由Statacorp于1985年开发,广泛应用于企业和学术机构。
特点:小型统计软件,统计分析能力强,计算速度快,用户界面简单,生存数据分析和纵向数据分析功能突出。
3.2.5 MATLAB
历史与发展:由美国The MathWorks公司出品,是一款商业数学软件。
特点:高效的数值计算和符号计算功能,完备的图形处理功能,友好的用户界面,丰富的应用工具箱。
3.3 其他数据分析工具
3.3.1 Eviews
定义:计量经济学软件包,用于对社会经济关系与经济活动的数量规律进行观察。
功能:时间序列和非时间序列数据分析,建立统计关系式,进行预测、模拟等。
3.3.2 Minitab
定义:国际流行的统计软件包,特点简单易懂。
功能:基本统计分析、回归分析、方差分析、多元分析、非参数分析、时间序列分析、试验设计、质量控制、模拟、绘制高质量三维图形等。
3.3.3 WEKA
定义:公开的数据挖掘工作平台,集合了大量机器学习算法。
功能:数据预处理、分类、回归、聚类、关联规则、可视化等。
3.4 数据分析工具的发展趋势
从数据到信息的进化:
60年代:计算机、磁带、磁盘等数据存储技术的发展。
80年代:关系型数据库和结构化查询语言(SQL)的广泛应用。
90年代:数据仓库、OLAP、多维数据库的发展。
2000年以后:随着互联网的迅速发展,数据量成倍递增,对数据管理技术提出全新要求,海量数据库和高级算法的应用成为主流。
总结:埃某哲通过其权威解读,详细介绍了大数据挖掘与分析的方法论框架、分析方法以及分析支撑工具。从CRISP-DM框架的业务理解到数据部署,每一步都详细阐述了数据分析的流程与要点。在分析方法上,涵盖了数据清洗、数据探索、分类、回归、聚类分析、关联规则、时间序列分析以及结构优化算法等多个方面,每种方法都提供了具体的算法、应用场景和评估指标。同时,还介绍了多种常用的数据分析工具,包括SAS、SPSS Clementine、R、Stata、MATLAB等,以及它们的特点、功能和应用领域。最后,总结了数据分析工具的发展历程和未来趋势,展示了从数据到信息、再到知识的进化过程。这些内容为大数据挖掘与分析提供了全面的指导和参考,有助于企业和个人更好地利用大数据资源,提升业务决策的科学性和准确性。
延伸阅读>>
321页PPT|整车巨头IT规划方法论与实践案例详解(续):集团数据规划、集团IT集成架构、集团T基础设施规划、IT治理体系规划
243页PPT|集团财务管控平台全景建设方案与案例分享:报表管理、全业务报账、大数据、全面预算管理、紫金矿业、中国铝业、上海电气
219页PPT|科技巨头高效供应链管理方案:从供应端至流通端全协同设计、全景支撑产品研发、零件定点、生产准备、生产制造、售后服务
134PPT|SAP|白酒巨头数字化战略规划:市场、研发、计划、采供、生产、物流、销售、客户服务:APS、MES、CRM集成支持
166页PPT | 化工集团企业4A架构详细设计方案:业务架构设计、应用架构设计、数据架构设计、技术架构设计及信息化管控体系设计
👇🏻点击「阅读原文」,更多好文,任意下载