报告|中国居民教育程度与总收入情况关系分析

文摘   2024-08-08 00:12   山东  



中国居民教育程度与总收入情况关系分析

问题概述

01

      教育程度对个体的经济状况有着深远的影响。随着中国经济的快速发展和教育普及程度的提高,居民的受教育程度与个人收入之间的关系逐步得到关注。本研究旨在探讨中国居民的受教育程度与其2020年总收入之间的关系,以揭示教育对收入分配的影响。

   本研究将使用中国综合社会调查(CGSS)数据,对不同教育水平人群的总收入情况进行统计分析和模型构建。通过对这些数据的有效分析,我们期望能够找出教育程度在收入分配中的作用。研究结果不仅有助于理解教育在经济发展中的核心作用,还能为政策制定者提供重要参考,以便更好地制定教育政策和收入分配策略。此外,研究还可以为家庭和个人提供关于教育投资的科学建议,帮助他们在教育选择上做出更明智的决策。


文献综述

02

      大量研究表明,教育水平与收入之间存在显著的正相关关系。Mincer(1974)的经典人力资本理论指出,受教育程度的提高能够增加个人的人力资本,从而提升其劳动生产率和收入水平。这一理论在全球范围内都得到了广泛验证。

      在中国背景下,教育对收入的影响同样显著。宏观层面上,吴舒钰等人(2024)的研究表明,中国的教育回报率自1978年以来不断上升,我国的教育投资有效对冲了人口结构变化对经济造成的负面冲击。李秀玉等人(2020)通过分析中国城镇居民的收入分配情况发现,教育水平是影响收入差距的重要因素之一,质量可比的教育对居民总收入和工作收入均具有显著的正向影响。


      区域差异是影响教育与收入关系的重要因素。王小鲁(2005)等人的研究指出,中国不同地区的经济发展水平和教育资源分布存在较大差异,这导致了教育回报率在不同地区间的显著差异。发达地区由于经济发展水平较高,教育回报率相对较高;而欠发达地区的教育回报率则相对较低。此外,性别差异也在教育回报中表现出显著影响。龚继红(2024)等人指出,教育代际向下流动仍然会加剧代际收入传递固化,且这一影响更多作用于女性。

      综上所述,尽管已有研究表明教育水平对收入有显著影响,但在中国背景下,不同教育背景对这一关系的具体影响仍需要进一步探讨。因此,本研究将进一步分析中国居民的教育程度与总收入之间的关系,揭示教育对收入分配的作用机制。


模型构建或方法

03

1.数据来源:本研究所采用的是中国综合社会调查2021年度调查数据,该数据集涵盖样本广泛,共完成有效样本8148份,包含了700个变量,可用来分析中国居民受教育程度与总收入情况关系分析。

2.变量选择:研究的主要自变量包括最高教育程度、高中学校等级、大学学校等级、大学专业类型等等,这些指标能够尽可能地反映出不同个体的受教育程度。因变量为其2020年的总收入,划分为了高、中、低三种收入分类,以进行更好的模型训练。

3.数据预处理:在进行模型构建之前,对数据进行了清洗和预处理。数据清洗策略如下:对于最高教育程度,由于缺失值较少,可以直接删除这些行;对于完成最高学历年份,补齐缺失值,使用列的平均值或中位数;对于高中学校等级和大学学校等级,补齐缺失值,使用众数;对于大学专业,补齐缺失值,使用众数。此外,删除了完成最高学历年份小于1922年或大于2030年的异常数据。

4.模型构建:采用了决策树模型来分析不同居民受教育程度和总收入之间的关系。一方面,决策树模型可以处理数值型和分类型数据,不需要对数据进行严格的预处理。无论是教育年限这样的连续变量,还是职业类型这样的分类变量,决策树都可以直接使用。另一方面,决策树模型可以提供特征重要性,帮助识别哪些特征对收入的影响最大。

5.模型训练与评估:我们将数据集划分为训练集和测试集。我们在训练集上训练模型,并在测试集上评估模型的性能。

6.性能指标:为了全面地评估模型的性能,采用了混淆矩阵、分类报告和ROC曲线等重要指标。混淆矩阵和分类报告提供了模型的准确度、召回率和F1分数等评价指标,ROC曲线和AUC值则量化了模型在各个类别上的区分能力。混淆矩阵和分类报告提供了模型精确度(Accuracy)、召回率(Recall)和F1分数(F1-Score)等评价指标,而ROC曲线和AUC值则提供了模型在各个类别上区分能力的量化指标。

7.结果可视化:为了更加直观地展示模型评估的结果,采用热图来展示混淆矩阵,并且用折线图来展示ROC曲线。

8.误差分析:通过分析混淆矩阵,我们识别模型在哪些类别上存在过拟合或欠拟合,以此探索可能的原因和改进方法。


数据分析

04

1. 数据清洗、补空、导出、label 更新和属性类型。

#   Column            Dtype

---  ------          -----

0   最高教育程度          float64

1   最高教育程度(状况)   float64

2   完成最高学历年份      float64

3   高中学校等级         float64

4   大学学校等级         float64

5   大学专业            float64

6   2020年总收入       float32



2. 数据可视化的实现

图 1:最高教育程度占比


1:没有受过任何教育;2:私塾、扫盲班;3:小学;4:初中;5:职业高中;6:普通高中;7:中专;8:技校;9:大学专科(成人高等教育);10:大学专科(正规高等教育);11:大学本科(成人高等教育);12:大学本科(正规高等教育);13:研究生及以上:14:其他。

有25.6%的人最高教育程度是初中,20.4%的人最高教育程度是小学,12.4%的人最高教育程度是普通高中。


图 2:大学专业占比


1:哲学;2:经济学;3:法学;4:教育学;5:文学;6:历史学;7:理学;8:工学;9:农学;10:医学;11:军事学;12:管理学;13艺术学:14:其他。

81.7%的大学生最后所学专业(学科大类)是工学。


图 3:每年完成最高学历人数的变化趋势


于2000年左右年完成最高学历人数得到了一个爆发式的增长和下跌。近年来,每年完成最高学历的人数正在稳步上升。


图 4:中国居民2020年总收入分段表


大部分中国居民2020年的总收入处于0-20k这个段位,总体上收入越高人数越少。



3. 模型构建与结果


选用的是决策树分类器模型,随机种子数设置为42。


# 拆分数据集为训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建决策树分类器模型

model = DecisionTreeClassifier(random_state=42)

model.fit(X_train, y_train)

# 预测

y_pred = model.predict(X_test)



真实标签0(收入低于50000):有583个样本被正确预测为0,但有46个样本被错误地预测为1,26个样本被预测为2。

真实标签1(收入处于50000-100000):有32个样本被正确预测为1,但有161个样本被错误地预测为0,18个样本被预测为2。

真实标签2(收入处于100000-9999996):有13个样本被正确预测为2,但有46个样本被错误地预测为0,16个样本被错误预测为1。



类别0(低收入):精确度(Precision):0.74;召回率(Recall):0.89;F1分数:0.81;支持度(Support):655


分析:这个类别的预测表现较好,召回率很高,表明大多数真实为低收入的样本被正确分类。精确度也很高,说明大多数预测为低收入的样本确实是低收入人群。


类别1(中等收入):精确度(Precision):0.34;召回率(Recall):0.15;F1分数:0.21;支持度(Support):211


分析:这个类别的预测表现较差,召回率很低,说明很多真实为中等收入的样本被错误分类。精确度也较低,说明很多非中等收入的样本被错误地预测为中等收入。


类别2(高收入):精确度(Precision):0.23;召回率(Recall):0.17;F1分数:0.20;支持度(Support):75


分析:这个类别的预测表现很差,召回率很低,说明大多数真实为高收入的样本被错误分类。精确度也较低,说明很多非高收入的样本被错误地预测为高收入。


整体性能:准确率(Accuracy):0.67;宏平均(Macro avg):精确度:0.44、召回率:0.41、F1分数:0.40;加权平均(Weighted avg):精确度:0.61、召回率:0.67、F1分数:0.62


分析:整体来看,模型对低收入类别的表现最好,而对中等收入和高收入类别的预测表现较差。宏平均和加权平均的指标显示模型在各个类别上的表现参差不齐。


1)类别性能差异:

· 类别0(低收入)的AUC值:0.58

· 分析:当前的模型在识别低收入人群时表现相对较好。


· 类别1(中等收入)的AUC值:0.53

· 分析:类别1的AUC值接近于0.5,表明模型在中等收入人群上的分类性能较差,接近于随机猜测。需要对模型进行进一步调整和优化,以提升对中等收入人群的分类能力。


· 类别2(高收入)的AUC值:0.56

· 分析:类别2的AUC值稍高于0.5,表明模型在高收入人群上的分类性能略高于随机猜测,但仍有显著的改进空间。进一步的特征工程或模型选择可能会改善这一结果。


2)整体性能:

· 各类别的AUC值差异较大,低收入人群的分类性能相对较好,而中等收入和高收入人群的分类性能相对较差。


· 整体性能:从图中可以看出,模型在不同类别上的性能差异较大。这可能是由于数据不平衡、特征与类别的相关性不同或模型对某些类别的泛化能力不足。需要通过进一步的特征工程、数据平衡和模型优化来提高整体性能。


小结

05

1. 主要结论

本研究通过分析中国综合社会调查(CGSS)数据,探讨了中国居民的受教育程度与2020年总收入之间的关系。

1)低收入群体分类表现较好:模型在预测低收入群体(收入低于50000元)时表现较好,召回率和精确度均较高。

2)中等收入和高收入群体分类较差:对于中等收入(50000-100000元)和高收入(100000元以上)群体,模型的分类性能较差,召回率和精确度均较低。现有模型在识别这两个群体时存在显著不足。

3)整体分类性能一般:整体模型的准确率为67%,宏平均AUC值为0.56,显示模型在所有类别上的总体性能略高于随机猜测,但仍有较大的改进空间。

2. 不足

1)数据不平衡:模型在处理数据不平衡时存在不足,中等收入和高收入群体的样本数量较少,导致模型在这些类别上的表现较差。这可能也与我们对收入人群划分的方式有关。

2)特征选择有限:研究中使用的特征主要集中在教育相关变量,可能遗漏了其他对收入有显著影响的因素,如工作经验、家庭背景等。

3)模型优化不足:虽然使用了决策树模型,但在模型参数优化和复杂模型(如随机森林、梯度提升树等)的尝试上还有进一步提升的空间。

4)区域和性别差异未充分考虑:不同地区和性别对教育回报率的影响差异未在模型中充分考虑,这可能影响了模型的预测性能。

参考文献

06


1. Mincer J. Schooling, Experience, and Earnings. Human Behavior & Social Institutions No. 2[J]. 1974.

2. 吴舒钰,李稻葵,厉克奥博.教育回报率显著高于资本回报率的实证分析——基于1978年以来我国宏观教育回报率的测算[J].教育研究,2024,45(03):111-124.

3. 李秀玉,蔡玉洁.质量可比的教育与居民收入关系的实证分析——基于CGSS数据的研究[J].统计学报,2020,1(06):85-94.DOI:10.19820/j.cnki.issn2096-7411.2020.06.007.

4. 王小鲁,樊纲.中国收入差距的走势和影响因素分析[J].经济研究,2005(10):24-36.

5. 龚继红,廖梦雪.性别视角下教育代际流动对代际收入流动影响的差异[J].学习与实践,2024(03):81-93.DOI:10.19624/j.cnki.cn42-1005/c.2024.03.014.


~END~


抽样调查之家
分享抽样调查最新技术和相关文献,普及抽样调查在人工智能时代的重要性,分享抽样技术在不同领域的应用,助力抽样调查在政府、企业决策中的作用。
 最新文章