R语言主成分PCA、因子分析、聚类对地区经济研究分析重庆市经济指标

科技科技 2024-11-25 22:37 浙江

全文下载链接:http://tecdat.cn/?p=27515

建立重庆市经济指标发展体系，以重庆市一小时经济圈作为样本，运用因子分析方法进行实证分析，在借鉴了相关评价理论和评价方法的基础上，本文提取出经济规模、人均发展水平、经济发展潜力、3个主因子，从重庆市统计年鉴选取8个指标构成的指标体系数据对重庆市38个区县经济发展基本情况的八项指标进行分析，并基于主因子得分矩阵对重庆市38个区县进行聚类分析（点击文末“阅读原文”获取完整代码数据）。

结果表明：根据综合得分，可以看出各区县社会经济发展水平排前三的是渝中区、渝北区、九龙坡区，得分最低的三个是巫山县、巫溪县、城口县，结合总体的分析可以看出渝中区、九龙坡区在经济总体规模和建筑业方面较好，而重庆周边的地区经济实力较差，投资环境不好，特别是在建筑方面的缺乏，以至于经济发展相对而言薄弱的地区，不论从哪方面来说重庆各区县中渝中区的经济实力是最好的。

相关视频

评价指标的建立

评价地区的之间的经济发展水平，必须建立适当的指标体系。考虑到地区经济指标的复杂性、多样性和可操作性，本文在此基础上建立了一套较为完整的易于定量分析的地区经济评价指标体系，分别从不同的角度反映地区经济发展特征。

本文所建立的指标体系共包括8个指标，分别从经济规模、人均发展水平、经济发展潜力等方面来反映地区经济发展特征。具体指标如下：

地区生产总值（万元）（X1）

社会消费品零售总额（万元）（X2）

工业总产值（万元）(X3)

建筑业总产值（万元）(X4)

高技术生产总值（万元）（X5）

全社会固定资产投资（万元）（X6)

人均可支配收入（元）（X7）

人均地区生产总值（元）(X8)

因子分析在地区经济研究中的应用

因子分析模型及其步骤

因子分析是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系，探求观测数据中的基本结构，并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量，而假想变量是不可观测的潜在变量，称为因子。设p个变量，则因子分析的数学模型可表示为：

称为公共因子，是不可观测的变量，他们的系数称为因子载荷。是特殊因子，是不能被前m个公共因子包含的部分。因子分析步骤如下：

（1）将原始数据标准化，仍记为X；（2）建立相关系数矩阵R；（3）解特征方程，计算特征值和特征向量，当累计贡献率不低于85%时，提取k个主成分代替原来的m个指标，计算因子载荷矩阵A；（4）对A进行最大正交旋转交换；（5）对主因子进行命名和解释。如需进行排序，则计算各个主因子的得分，以贡献率为权重，对加权计算综合因子得分。

样本选取及数据来源

本文选取了重庆市38个区县作为样本进行分析，目的在于探索如何基于R统计软件的因子分析和聚类分析方法研究地区经济发展。具体数据如下：

数据分析过程

将原始数据录入R软件中，选取地区生产总值（万元）（X1）、社会消费品零售总额（万元）（X2）、工业总产值（万元）(X3）、建筑业总产值（万元）(X4)、高技术生产总值（万元）（X5）、全社会固定资产投资（万元）（X6)、人均可支配收入（元）（X7）、人均地区生产总值（元）(X8)。

在进行因子分析之前，我们通过观察相关系数矩阵，并用KMO and Bartlett’s Test检验一下数据是否适合作因子分析。再做描述性分析Analysis-factor-description得到初始公因子方差、因子、特征值以及由每个因子解释的百分比和累计百分比。分析结果如下：

coebaltt(COR,)#Bartlett球形检

Bartlett 的球形度检验的p值（显著性概率值sig）<0.05，表明通过检验，分布可以近似为正态分布，由此则可以进行因子分析。

sreeot(PCA,type="lines")

点击标题查阅往期内容

数据分享|R语言用主成分PCA、逻辑回归、决策树、随机森林分析心脏病数据并高维可视化

左右滑动查看更多

从表可以得出，提取3个因子的累计方差贡献率已经达到89.854%>86%，信息损失仅为10.146%，从第4个因子开始方差贡献率都低于5%，因此选取3个公因子进行因子分析效果较为理想；从图的碎石图可以看出从第4个因子开始，特征值差异变化很小，综上所述：在特征值大于0.5的条件下，所提取的三个因子能通过检验并能很好的描述8个指标，所以提取前3个特征值建立因子载荷矩阵。

表中为初始因子载荷矩阵表， F1、F2、F3分别作为第一、第二、第三公共因子。建立了因子分析数学目的不仅仅要找出公共因子以及对变量进行分组，更重要的要知道每个公共因子的意义，以便进行进一步的分析，如果每个公共因子的含义不清，则不便于进行实际背景的解释。由于因子载荷阵是不唯一的，所以应该对因子载荷阵进行旋转。目的是使因子载荷阵的结构简化，使载荷矩阵每列或行的元素平方值向0和1两极分化。有三种主要的正交旋转法。四次方最大法、方差最大法和等量最大法。

因此需求进行因子旋转，使得因子对变量的贡献达到极化的效果。为此采用方差最大化的正交旋转方式，使各变量在某个因子上产生较高载荷，而其余因子上载荷较小，从而得到旋转后的因子载荷矩阵，如下表所示：

由表和旋转后的因子图可以看出，通过旋转后的公共因子的解释原始数据的能力提高了，表现为公共因子F1在X1(地区生产总值)，X6（全社会固定资产投资）和X8（人均地区生产总值）上的载荷值都很大。因此我们可以把第一公共因子确立为综合经济实力因子，宏观上反映了地区经济发展规模的总体情况，在这个因子上的得分越高，说明城市经济发展的总体情况越好。

利用各公共因子方差贡献率计算综合得分，并计算综合得分=因子1的方差贡献率因子1的得分+因子2的方差贡献率因子2的得分+因子3的方差贡献率*因子3的得分。将数据按综合得分降序排列，得到部分因子得分和综合得分情况如下图所示：

结果讨论

基于上述因子得分，可以得出2012年重庆38个区县的经济发展状况如下：

1、根据经济实力因子F1得分大于1的依次有渝中区、渝北区、九龙坡区、江北区和万州区，分数分别为4.4211、1.8967、1.7808、1.201、1.2804。说明在经济总体规模和建筑业方面，渝中区、渝北区、九龙坡、江北区和万州区在重庆市的38个区县中是最好的，规模较大，经济实力最强，发展前景很好，经济发展实力雄厚的地区。

2、根据经济发展潜力因子F2得分大于1的有沙坪坝区和渝北区，分数分别为3.7052、3.4396。说明在高技术科技和工业方面比较发达，固定资产投资最大，这两个地区都在主城，对外开放程度高，科技创新方面比较好，有自己的工业发展，已基本形成了自己的产业结构，充分发挥了自己的地理优势和资源环境优势，发展潜力较大。

基于主因子得分的聚类分析

系统聚类分析

聚类分析又称群分析，就是将数据分组成为多个类。在同一个类内对象之间具有较高的相似度，不同类之间的对象差别较大。在社会经济领域中存在着大量分类问题，比如若对某些大城市的物价指数进行考察，而物价指数很多，有农用生产物价指数、服务项目价指数、食品消费物价指数、建材零售价格指数等等。由于要考察的物价指数很多，通常先对这些物价指数进行分类。总之，需要分类的问题很多，因此聚类分析这个有用的工具越来越受到人们的重视，它在许多领域中都得到了广泛的应用。
聚类分析内容非常丰富，有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等；最常用最成功的聚类分析为系统聚类法，系统聚类法的基本思想为先将n个样品各自看成一类，然后规定样品之间的“距离”和类与类之间的距离。选择距离最近的两类合并成一个新类，计算新类和其他类（各当前类）的距离，再将距离最近的两类合并。这样，每次合并减少一类，直至所有的样品都归成一类为止。
系统聚类法的基本步骤：
1、计算n个样品两两间的距离。
2、构造n个类，每个类只包含一个样品。
3、合并距离最近的两类为一新类。
4、计算新类与各当前类的距离。
5、重复步骤3、4，合并距离最近的两类为新类，直到所有的类并为一类为止。
6、画聚类谱系图。
7、决定类的个数和类。
系统聚类方法：1、最短距离法；2、最长距离法；3、中间距离法；4、重心法；5、类平均法；6、离差平方和法（Ward法）。

基于主因子得分对重庆市38个区县经济发展分析，采用聚类方法选择组间链接法,计算距离选择平方欧式距离,标准化数据才用标准正太数据化处理。得到如下结果：

rct.st(hc,k = 6, border = "red")

由树状图可知，可以将重庆各区县按经济中和实力实际情况分为六类：

第一类只包括渝中区，渝中区是重庆市的中心城市,是重庆市的政治经济文化中心、基础教育高地、具有特殊的区位优势和突出的战略地位。产业结构的现状特征是第三产业占绝对优势,其中金融业、商贸业以及中介服务业为主导行业,属于经济发展实力雄厚的地区。

第二类只包括渝北区，渝北区先后启动了总体规划近65平方公里的重庆科技产业园、重庆现代农业园区、渝东开发区等项目，被市政府命名为"重庆农业科技园区"，所以该地区在高技术生产总值贡献很大，而且投资环境优越，且大部分地区有个自己中心商业地带，对外开放程度高，区位优势很明显，产业结构合理，属于经济发展较强的地区。

点击文末“阅读原文”

获取全文完整资料。

本文选自《R语言主成分PCA、因子分析、聚类对地区经济研究分析重庆市经济指标》。

本文中的指标数据、代码分享到会员群，扫描下面二维码即可加群！

点击标题查阅往期内容

数据分享|R语言用主成分PCA、逻辑回归、决策树、随机森林分析心脏病数据并高维可视化

R语言逻辑回归logistic模型分析泰坦尼克titanic数据集预测生还情况

R语言是否对二分连续变量执行逻辑回归

R语言用lme4多层次（混合效应）广义线性模型（GLM），逻辑回归分析教育留级调查数据

R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析

R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林分析心脏病患者

R语言逻辑回归（Logistic回归）模型分类预测病人冠心病风险

R语言用局部加权回归(Lowess)对logistic逻辑回归诊断和残差分析

R语言用主成分PCA、逻辑回归、决策树、随机森林分析心脏病数据并高维可视化

R语言用线性模型进行臭氧预测：加权泊松回归，普通最小二乘，加权负二项式模型，多重插补缺失值

R语言Bootstrap的岭回归和自适应LASSO回归可视化

R语言中回归和分类模型选择的性能指标

R语言多元时间序列滚动预测：ARIMA、回归、ARIMAX模型分析

R语言用lme4多层次（混合效应）广义线性模型（GLM），逻辑回归分析教育留级调查数据

R语言计量经济学：虚拟变量(哑变量)在线性回归模型中的应用

R语言线性混合效应模型实战案例

R语言混合效应逻辑回归（mixed effects logistic）模型分析肺癌数据

R语言如何用潜类别混合效应模型（LCMM）分析抑郁症状

R语言基于copula的贝叶斯分层混合模型的诊断准确性研究

R语言建立和可视化混合效应模型mixed effect model

R语言LME4混合效应模型研究教师的受欢迎程度

R语言线性混合效应模型实战案例

R语言用Rshiny探索lme4广义线性混合模型（GLMM）和线性混合模型（LMM）

R语言基于copula的贝叶斯分层混合模型的诊断准确性研究

R语言如何解决线性混合模型中畸形拟合(Singular fit)的问题

基于R语言的lmer混合线性回归模型

R语言用WinBUGS 软件对学术能力测验建立层次（分层）贝叶斯模型

R语言分层线性模型案例

R语言用WinBUGS 软件对学术能力测验（SAT）建立分层模型

使用SAS，Stata，HLM，R，SPSS和Mplus的分层线性模型HLM

R语言用WinBUGS 软件对学术能力测验建立层次（分层）贝叶斯模型

SPSS中的多层（等级）线性模型Multilevel linear models研究整容手术数据

用SPSS估计HLM多层（层次）线性模型模型

R语言高维数据的主成分pca、 t-SNE算法降维与可视化分析案例报告

R语言惩罚logistic逻辑回归（LASSO,岭回归）高维变量选择的分类模型案例

R语言有RStan的多维验证性因子分析（CFA）

主成分分析(PCA)原理及R语言实现及分析实例

R语言无监督学习：PCA主成分分析可视化

R语言使用Metropolis- Hasting抽样算法进行逻辑回归

R语言多元Logistic逻辑回归应用案例

R语言自适应LASSO 多项式回归、二元逻辑回归和岭回归应用分析

R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

R语言基于树的方法：决策树，随机森林，Bagging，增强树

spss modeler用决策树神经网络预测ST的股票

R语言中自编基尼系数的CART回归决策树的实现

python在Scikit-learn中用决策树和随机森林预测NBA获胜者

matlab使用分位数随机森林（QRF）回归树检测异常值

基于随机森林、svm、CNN机器学习的风控欺诈识别模型

R语言惩罚logistic逻辑回归（LASSO,岭回归）高维变量选择的分类模型案例

R语言用标准最小二乘OLS，广义相加模型GAM ，样条函数进行逻辑回归LOGISTIC分

http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247548265&idx=8&sn=9fbe4b9726ff5c4290112a68cd264d81

拓端数据部落

拓端(tecdat.cn)创立于2016年，提供专业的数据分析与挖掘服务，致力于充分挖掘数据价值。

最新文章

python用支持向量机回归(SVR)模型分析用电量预测电力消费

R语言ARIMA-GARCH波动率模型预测股票市场苹果公司日收益率时间序列

数据分享|PYTHON用决策树分类预测糖尿病和可视化实例

R语言主成分PCA、因子分析、聚类对地区经济研究分析重庆市经济指标

R语言随机波动率(SV)模型、MCMC的Metropolis-Hastings算法金融应用：预测标准普尔SP500指数

【专题】2024年协作机器人产业发展蓝皮书报告汇总PDF洞察（附原数据表）

R语言非线性混合效应 NLME模型(固定效应&随机效应)对抗哮喘药物茶碱动力学研究

分布滞后线性和非线性模型（DLNM）分析空气污染（臭氧）、温度对死亡率时间序列数据的影响

R语言GARCH族模型：正态分布、t、GED分布EGARCH、TGARCH的VaR分析股票指数

【专题】2024年双十一购物节营销、消费洞察报告汇总PDF洞察（附原数据表）

Copula估计边缘分布模拟收益率计算投资组合风险价值VaR与期望损失ES

【专题】2024大健康产业热点分析报告合集PDF分享（附原数据表）

R语言预测人口死亡率：用李·卡特（Lee-Carter）模型、非线性模型进行平滑估计

数据分享|R语言广义线性模型GLM：线性最小二乘、对数变换、泊松、二项式逻辑回归分析冰淇淋销售时间序列数据和模拟

R语言Bootstrap的岭回归和自适应LASSO回归可视化

R语言特征选择——逐步回归

MATLAB贝叶斯优化混合Bayes-CNN-RNN分析股票市场数据与浅层网络超参数优化

体验游浪潮，推动旅游业变革|报告汇总PDF洞察（附原数据表）

MATLAB用GARCH-EVT-Copula极值理论模型VaR预测分析股票投资组合

【专题】2023年中国AIGC产业全景报告PDF合集分享（附原数据表）

matlab贝叶斯隐马尔可夫hmm模型实现

非线性回归nls探索分析河流阶段性流量数据和评级曲线、流量预测可视化

Python套索回归lasso、SCAD、LARS分析棒球运动员薪水3个实例合集|附数据代码

用R语言和python进行社交网络中的社区检测

MATLAB深度学习Transformer神经网络量化金融时间序列预测交易策略回测

中国医疗器械企业在出海中怎样构建国际化组织与人才基础报告汇总PDF洞察（附原数据表）

R语言、SAS潜类别（分类）轨迹模型LCTM分析体重指数 (BMI)数据可视化

R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码

Python中用PyTorch机器学习神经网络分类预测银行客户流失模型

【专题】2024年全球生物医药交易报告汇总PDF洞察（附原数据表）

数据分享|R语言ARIMA模型分析预测上海空气质量指数AQI时间序列

数据分享|R语言因子分析、相关性分析大学生兼职现状调查问卷数据可视化报告

MATLAB图注意力网络GAT多标签图分类预测可视化

【专题】中国企业出海洞察报告暨解码全球制胜之道报告汇总PDF洞察（附原数据表）

R语言k-Shape时间序列聚类方法对股票价格时间序列聚类

【专题】人工智能AI算力高质量发展评估体系报告合集PDF分享（附原数据表）

【专题】新能源发电行业及其市场化进程概览白皮书报告合集PDF分享（附原数据表）

R语言分布滞后线性和非线性模型（DLMs和DLNMs）分析时间序列数据

R语言文本挖掘：kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化

【专题】2024年全球生物医药交易报告汇总PDF洞察（附原数据表）

Matlab用BUGS马尔可夫区制转换Markov switching随机波动率模型、序列蒙特卡罗SMC、M H采样分析时间序列

【专题】2024AIGC创新应用洞察报告汇总PDF洞察（附原数据表）

【专题】2024年中国智能算力行业白皮书报告汇总PDF洞察（附原数据表）

【专题】2024数字化赋能绿色智能制造高管洞察报告合集PDF分享（附原数据表）

课程视频|R语言bnlearn包：贝叶斯网络的构造及参数学习的原理和实例

Matlab中的偏最小二乘法（PLS）回归模型，离群点检测和变量选择

【专题】2024食品行业预制菜趋势报告PDF合集分享（附原数据表）

R语言逻辑回归logistic模型ROC曲线可视化分析2例：麻醉剂用量影响、汽车购买行为

【视频讲解】Python深度神经网络DNNs-K-Means（K-均值）聚类方法在MNIST等数据可视化对比分析

【专题】2024年内容创作者生态报告抖音、小红书、快手汇总PDF洞察（附原数据表）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉