问题概述
在当代社会,个体的婚姻状况不仅是个人生活选择的反映,也是社会结构和文化背景的综合体现。教育水平作为影响个人社会经济地位的重要因素,与婚姻状况之间存在着复杂的相互作用。本研究以中国综合社会调查(CGSS)2021年的数据为基础,旨在深入探讨婚姻状况与教育水平及其他社会因素之间的关系,以期为理解中国社会中婚姻与教育的相互作用提供新的视角。
研究背景与研究目的
随着中国经济的快速发展和社会的深刻变革,婚姻观念和教育模式也在不断演变。传统的婚姻观念受到现代价值观念的冲击,教育的重要性日益凸显,成为影响个人职业发展和社会流动的关键因素。在此背景下,个体的婚姻选择和教育获得呈现出多样化的趋势,两者之间的关联性成为社会科学研究的重要议题。
本研究的主要目的是通过定量分析方法,探究婚姻状况与教育水平之间的相关性,并考察性别、出生年份、居住省份等其他社会因素如何影响这一关系。通过对CGSS2021数据集的深入分析,我们期望揭示不同教育背景下个体婚姻状况的分布特征,评估教育水平对婚姻选择的可能影响,并探讨社会经济地位、文化背景等因素在其中的作用。
现有研究概述
婚姻状况与教育水平:研究表明婚姻状况与个体的教育水平存在密切联系。已婚个体普遍报告较高的生活满意度和情感幸福感(Waite & Gallagher,2000)。
教育水平与幸福感:教育水平被认为与个体的幸福感正相关。教育不仅提升个体的经济状况,还增强社会参与和自我实现的机会(Diener & Biswas-Diener,2002)。
社会人口统计特征:性别、出生年份和居住省份等社会人口统计特征也在婚姻、教育与幸福感的关系中扮演着角色(Twenge et al., 2015)。
现有研究多集中于单一因素分析,缺乏对婚姻状况、教育水平以及其他社会人口统计特征综合作用的探讨。尽管婚姻、教育与幸福感的关系涉及社会学、心理学和经济学等多个学科,但现有研究往往局限于单一学科视角。故本文打算在原有的基础上,对多方面活动对幸福感影响进行研究。
模型构建和方法
在本研究中,我们采用了一系列的统计分析和机器学习方法来探索婚姻状况、教育水平与其他社会因素对个体幸福感的影响。以下是我们分析数据的方法概述:
1.数据预处理:首先,我们对CGSS2021数据集进行了彻底的预处理,以确保数据质量。这包括使用众数填充处理A69(婚姻状况)、A7a(教育水平)、provinces(省份)和A2(性别)列中的缺失值,和计算A3_1(出生年份)与固定年份(2021年)的差值,以确定个体的年龄。
2.描述性统计分析:我们对关键变量进行了描述性统计分析,以了解其在样本中的分布情况。这包括计算各类婚姻状况、教育水平、性别和年龄的频数和百分比。
3.相关性分析:为了探索不同变量之间的线性关系,我们运用了相关性分析方法。这有助于我们理解教育水平、婚姻状况、性别、出生年份和居住省份等因素之间是否存在显著的相关性。
4.多变量分析:进一步地,我们使用回归分析等多变量统计方法来考察教育水平对婚姻状况的影响,并控制其他变量的影响。这允许我们评估在考虑其他社会人口统计特征的情况下,教育水平对个体幸福感的独立影响。
数据分析
受访者的年龄分布均匀,因此研究结果具有年龄普适性。
受访者所在的地区也是均匀分布在全国各地,因此研究结果具有地域普适性。
受访者的男女性别较为均衡,因此结果具有一定的性别普适性。
数字1-14分别表示“没有受过任何教育”、“私塾、扫盲班”、“小学”、“初中”、“职业高中”、“普通高中”、“中专”、“技校”、“大学专科(成人高等教育)”、“大学专科(正规高等教育)”、“大学本科(成人高等教育)”、“大学本科(正规高等教育)”、“研究生及以上”、“其他”。该结果显示大多数受访者属于高中以上教育水平。
该结果表明大多数受访者处于未婚有配偶状态。
热图展示了不同变量之间的相关性系数,包括A69(婚姻状况)、A7a(教育水平)、provinces(省份)、A2(性别)和age(年龄)。相关性系数的范围从-1到1,其中-1表示完全负相关,1表示完全正相关,0表示没有线性相关。系数的数值(如-0.35、0.014、0.09等)表示变量间的相关程度。A69_encoded与age的相关性系数为0.51,表示婚姻状况编码与年龄之间存在中等程度的正相关性,意味着随着年龄的增长,人们的婚委状况会发生变化。A7a与A69的相关性系数为-0.35,表明教育水平编码与婚姻状况编码之间存在中等程度的负相关性,可能说明教育水平越高,婚姻状况的变化趋势与常规预期不同。A7a与provinces的相关性系数为-0.13,显示教育水平编码与省份编码之间存在一定程度的负相关性,可能反映出不同地区教育水平的差异。从图中可以看出,A69与age的相关性最强(0.51),这是研究中一个重要的发现。
为了提高预测的准确性和泛化能力,我们构建了机器学习模型。具体步骤包括:选择OneVsRestClassifier与LogisticRegression结合的模型,处理多分类问题,使用训练集和测试集对模型进行训练和评估。使用K折交叉验证来评估模型的性能,确保模型的稳定性和泛化能力。使用准确率、AUC等评价指标来衡量不同模型的性能。通过上述方法,我们能够构建一个综合性的分析框架。
Confusion Matrix:
[[ 167 0 53 0 0 0 0]
[ 4 0 42 0 0 0 0]
[ 12 0 1096 0 0 0 0]
[ 0 0 35 0 0 0 0]
[ 0 0 10 0 0 0 0]
[ 0 0 51 0 0 0 0]
[ 0 0 160 0 0 0 0]]
从矩阵中可以看出,有些类别的样本数量远多于其他类别,例如第三个类别有1096个样本,而其他类别的样本数量较少,这可能表明数据集中存在类别不平衡问题。有些类别虽然有大量的样本被正确预测,但也有12个样本被错误地预测到第一个类别,这可能表明模型在区分第一个类别和这些类别上存在一定的困难。
roc_curve.png展示了不同类别的ROC曲线,其中Class 0的AUC值为0.97,表示模型在区分Class 0与其他类别上表现很好。而Class 1的AUC值为0.65,相对较低,表明模型在区分Class 1与其他类别上的表现有待提高。
小结
本研究基于CGSS2021数据集,采用了一系列统计分析和机器学习方法,旨在探究婚姻状况与教育水平、性别、年龄和居住省份等社会因素之间的关系。通过综合应用数据预处理、描述性统计、相关性分析、多变量分析和机器学习建模,本研究得出以下结论:研究结果强调了社会经济因素如教育水平、性别和居住省份在个体婚姻状况中的综合作用。这些因素的相互作用可能比单一因素的直接影响更为复杂。
教育水平与婚姻状况之间存在显著的负相关性。受过较高教育的个体可能更倾向于晚婚或不婚,这可能与他们对个人发展、职业规划和独立性的追求有关。此外,较高的教育水平通常与更好的就业机会和经济独立性相关,这可能使个体在婚姻选择上拥有更大的自主权。
年龄是影响婚姻状况的关键因素。随着年龄的增长,个体更可能进入婚姻状态,这与社会对适婚年龄的普遍期望相符。然而,年龄增长也可能导致婚姻状况的转变,如离婚或丧偶,这反映了生命历程中的不同阶段和可能的社会动态。随着社会的发展和全球化的影响,未来的婚姻模式可能会继续发生变化。理解当前的趋势和模式有助于预测和适应未来的变化。
尽管本研究提供了有价值的见解,但也存在一些局限性,如样本选择的偏差、未考虑的文化差异、以及可能存在的数据收集和处理中的误差。未来的研究可以通过扩大样本范围、深化理论框架和采用更先进的分析技术来克服这些局限性。同时,尽管模型在某些类别上表现出较高的预测准确性,但ROC曲线分析也揭示了模型在区分某些特定类别上可能存在的局限性,这需要进一步的模型调整和优化。
参考文献:
[1]中国综合社会调查(CGSS)2021* 年度调查问卷;