spss判别分析怎么使用?帮你找个spss做典型判别分析的案例,方便理解,如下:
===
判别分析是在分组已知的情况下,根据已经确定分类的对象的某些观测指标和所属类别来判断未知对象所属类别的一种统计学方法。
主要包括典型判别、贝叶斯判别、非参数判别方法。
===
下面给大家用鸢尾花数据,分享一个典型判别分析小案例:
150株鸢尾花,有刚毛的,变色的及弗吉尼亚三种类型。不同类型的鸢尾花他们在花萼花瓣长宽有不同的特征,现在咱们要基于现有数据总结适合判定鸢尾花类型的判别函数,以后有新的鸢尾花就可以直接判定它属于啥类型了。
数据长这个样子:
菜单:分析→分类→判别式。
判别函数的建立,是依据现有数据中正确的分类结果展开的。分组变量就是要告诉软件正确的分类是什么。是刚毛、变色、佛吉尼亚1~3的编码共3个分类水平。
将花萼长宽,花瓣长宽共4个变量作为判别的输入性依据,本案例咱们就不自动逐步了,直接采用全部纳入的方式进行判别。
参与判别的自变量是非常重要的,最好是你专业上认可认同的,对分类有价值的变量,要精准,不要随意入选。
菜单:打开【统计】对话框。
检验一下当前数据各组数据是否满足协方差一致性。做典型判别,需要勾选【未标准化】。
单变量anova这个也可以勾选上,方便查看自变量的区分性。
菜单:打开【分类】对话框。
勾选合并组图,以及摘要表。前者是可视化图形来辅助观察判别的效果,后者是用表格的形式浏览判别的准确率。
也可以勾选【留一分类】交叉验证。
根据自己的情况,输出对原始数据的判别结果。注意是可以单独另存出一份xml模型文件的,这个是实用功能,如果你未来要用判别函数针对新数据进行分类判断的话,用xml模型文件进行部署或预测是很灵活的。
其他参数不做选择设置。执行分析。
===
来看结果。
特征值表,函数1的累积贡献99%,函数2贡献剩余的1%。lambda表,函数均有统计学意义(P<0.05)。这是好结果。
两个判别函数都具有统计学意义(P<0.05),第一个判别函数贡献极大。
依据未标准化的系数,写出典型判别函数的方程式。
D1=-2.526-0.063花萼长-0.155花萼宽+0.196花瓣长+0.299花瓣宽D2=-6.987+0.007花萼长+0.218花萼宽-0.089花瓣长+0.271花瓣宽
用方程式计算判别得分,再结合质心距离远近,完成进行判别分类。
以前两个判别函数做坐标轴绘制散点图。刚毛鸢尾花的分类最为完美,而变色和佛吉尼亚鸢尾花则略有交叉重叠,可能存在个别错判的情况。
直接看判别准确率的表格。98%的准确率,这非常高的判别,仅有3个样本错判了。
建议看交叉验证的准确率,本例是97.3%,已经算很高了,判别效果良好。
数据满足等同协方差的要求吗?Box’s M检验显示,各组协方差有统计学差异(P<0.05),条件不满足,这里有点遗憾。实际应用时,可适当宽松看待该条件。
本文完
文/图=数据小兵
我公号内判别分析的其他资料:
论文中的SPSS:聚类分析和判别分析用于食品产地和品种的鉴别
===