在全球生育率下降的背景下,中国正面临人口老龄化和生育率降低的双重挑战。其中,育龄女性的生育意愿是影响国家人口结构和社会稳定的关键因素。本研究基于CGSS2021数据,旨在探讨互联网使用频率和受教育程度对育龄女性生育意愿的影响。
问题概述
人口是社会发展的基石,人口问题始终是全局性、战略性问题。近年来,随着经济社会的发展和人民生活水平的提高,生育观念发生了显著变化,低生育率逐渐成为全球性问题,对国家稳定与社会可持续发展构成了挑战。
中国作为世界上人口最多的国家,近年来也面临着人口老龄化和低生育率的双重压力。国家统计局数据显示,至2023年,我国人口已经连续两年负增长,在全球主要经济体中位居倒数第二。全面二孩政策不及预期、三孩政策效果并未显现,未能扭转中国出生人口下降趋势,生育堆积效应已基本结束,出生人口自2017年以来连续七年下降,2023年出生人口902万人,比2022年减少54万人,继续创新低。
育龄女性是家庭生育计划的主要承担者,在当今中国人口红利式微的背景下,理解并提升育龄女性的生育意愿变得尤为重要。随着现代化进程和科学技术发展,女性受教育水平显著提升,互联网逐渐成为人们沟通交流、获取信息的重要媒介。那么,互联网使用频率是否会对育龄女性的生育意愿产生影响?受教育程度是否会对育龄女性的生育意愿产生影响?这种影响在育龄女性间又有何不同?
针对以上问题,本研究梳理了相关文献,提出假设:
· 假设 1:互联网使用频率对育龄女性生育意愿有负面影响,即互联网使用频率越高,育龄女性生育意愿越低。
· 假设 2:受教育程度与育龄女性生育意愿成负相关,即受教育程度越高的育龄女性可能拥有越低的生育意愿。
· 假设 3:受教育水平对互联网使用频率和育龄女性生育意愿的关系具有调节作用, 即互联网使用频率对不同受教育水平女性的生育意愿影响有异质性。
为了论证以上假设,本研究选取 CGSS2021 数据,首先通过探索性数据分析(EDA)初步观察了受教育水平、互联网使用频率和生育意愿三者之间的关系。在初步观察得到的结果上,本研究进行了相关性分析及多元线性回归分析,以量化互联网使用频率、受教育水平与生育意愿之间的关系,并检查教育水平是否具有调节作用。
文献综述
在探讨互联网使用、受教育水平与生育意愿的关系方面,现有研究已经取得了一定的成果。王小洁等(2021)从信息成本和家庭代际视角分析了互联网使用对生育意愿的影响,指出互联网使用频率的提高可能导致个体生育意愿的降低,并且这种影响受到已育史和代际“数字鸿沟”的调节作用。 李艳和李长安(2024)的研究进一步揭示了性别角色态度的现代化对生育意愿的抑制作用,特别是在全面两孩政策实施后,性别平等观念的普及对生育意愿产生了显著的负面影响。李从容和高丽霞(2024)则从社会经济地位的角度出发,探讨了生育性别偏好和生育意愿之间的关系,并发现社会经济地位在这一关系中起到了遮掩效应,其中教育水平和收入水平对生育意愿有重要影响。
尽管现有研究提供了有价值的见解,但仍存在一些不足之处。其在研究对象的选择上往往较为宽泛,缺乏对特定群体——尤其是15至49岁的育龄女性的深入聚焦。这一年龄段的女性是生育行为的主要承担者,其生育意愿直接关系到社会的生育率和人口结构。因此,本研究明确将15至49岁的育龄女性作为研究对象,通过更细致的样本筛选和数据收集,提高研究结果的针对性和准确性。
模型构建与数据分析
数据来源
本文采用中国综合社会调查(CGSS)2021 年数据,数据共包含有效样本 8148 份,变量 700 个。
根据世界卫生组织规定,育龄女性是指年龄在16-49岁之间的女性。本研究基于问卷“您的出生年份是?”,将调查年份与被调查者出生年份相减得到各样本年龄,并筛选出符合性别及年龄标准的数据集。
对该数据集进行数据预处理后,该数据集中共包含样本1817个,其中包括了参与者的id、受教育水平、互联网使用频率、理想子女数量以及生育意愿。
变量选取
被解释变量
本文的被解释变量为女性生育意愿。使用调查问卷中问题:“A37_1.如果没有政策限制的话,您希望有几个孩子?”作为这一变量的替代变量。理想子女数主要在 0-4 之间分布,最大值为0,最小值为10。理想子女数越多,在一定程度上可以等效视为该育龄女性生育意愿越强。
由图中数据可以看出,育龄女性理想子女数占比最高的为2个(61.2%),其次是1个(24.2%),这一点极有可能受到社会文化的影响。在许多中国人的观念中,拥有两个孩子是最理想的家庭模式,子女间相互支持也可以维持家庭稳定。
并且理想子女数量受到政策影响较大,数据显示理想子女数主要集中于[0,2],可以看出“三孩政策”效果并不显著。
解释变量
本文的主要解释变量为互联网使用频率,以 CGSS 数据库中受访者对“过去一年,您对互联网(包括手机上网)的使用情况是?”的回答来衡量参考。原回答中的“从不、很少、有时、经常、非常频繁”分别赋值为 1 至 5 分,“不知道”和“拒绝回答”作为缺失值处理,分数越高表示使用互联网越频繁。
育龄女性的互联网使用情况表现出高度的活跃性。根据数据显示,她们的互联网使用频率中位数和众数均为“5”,这表明“非常频繁”的使用习惯在这一群体中占据了主导地位。具体来说,有60.2%的育龄女性属于这一使用频率区间.
此外,互联网使用频率的标准偏差为2.415,方差为5.831。标准偏差相对较小,意味着大多数育龄女性的使用频率集中在中位数附近,而方差则体现了使用频率分布的离散程度,5.831表明互联网使用频率在该群体中存在一定差异,但整体上仍然保持在较高的水平。
这些数据不仅体现了育龄女性对互联网的高度依赖,也反映出她们在日常生活中对信息获取、社交互动和在线服务的频繁需求。随着互联网技术的不断进步和普及,这一趋势可能会继续增强,进一步影响她们的生活方式和社交模式。
受教育程度是另一个重要解释变量。根据问卷中受教育程度选项,对选项进行赋值。
调查结果显示,育龄女性受教育程度的中位数为“6”(普通高中教育水平),说明在所有受调查的女性中,有一半的人至少完成了普通高中教育。
受教育程度的标准偏差为3.606,这一数值较大,表明受教育程度在个体间存在显著差异。
方差为13.005,作为标准偏差的平方,进一步证实了受教育程度的分布相对分散。这种分散可能与多种因素有关,包括地区差异、经济条件、教育资源的可及性,以及个人选择等。
探索性数据分析(EDA)
通过探索性数据分析(EDA)初步观察育龄女性受教育程度、互联网使用频率和理想子女数量之间的关系。
教育水平与互联网使用频率的关系
由图表可以看出,随着受教育水平的增长,互联网使用频率逐渐增加。在某种程度上可以推断出,教育水平较高的女性更频繁地使用互联网,这可能是因为教育水平较高的女性更有可能接触到互联网,其工作和生活需要更频繁地使用互联网。
互联网使用频率与理想子女数量关系
从图表中可以看到,随着互联网使用频率的增加,育龄女性理想子女数量差异逐渐增大,体现出互联网使用对育龄女性生育意愿具有一定影响,且对不同对象的影响有明显异质性。
教育水平与生育意愿的关系
根据图表数据观察得出,伴随受教育程度的提高,育龄女性生育意愿大致呈下降趋势。这一发现先前的假设相吻合,即更高的教育水平可能与较低的生育意愿相关联。然而,这一初步的观察结果需要通过更深入的分析和研究来进一步验证。
相关性分析
在初步观察得出结果的基础上进行相关性分析,使用皮尔逊相关系数来衡量变量之间的线性关系。
根据计算,得到以下结果:
教育水平与互联网使用频率之间的皮尔逊相关系数为 0.3336:这表明两者之间存在中等程度的正相关关系。随着教育水平的提高,互联网使用频率也相应增加。
互联网使用频率与生育意愿之间的皮尔逊相关系数为 -0.1205:这表明两者之间存在轻微的负相关关系。也就是说,随着互联网使用频率的增加,生育意愿略有下降。但这个相关系数的绝对值较小,因此这种关系不是很强。
教育水平与生育意愿之间的皮尔逊相关系数为 -0.2312:这表明两者之间存在轻微的负相关关系。随着教育水平的提高,生育意愿略有下降。这个相关系数的绝对值比互联网使用频率与生育意愿之间的相关系数要大,因此这种关系比前者更为明显。
对数据进行可视化分析,热力图展示了三个变量(之间的皮尔逊相关系数。每个单元格的颜色和数值表示两个变量之间的相关性强度和方向:颜色越暖(红或黄色),表示两个变量之间的正相关性越强;颜色越冷(蓝或紫色),表示两个变量之间的负相关性越强;每个单元格中的数值表示皮尔逊相关系数的绝对值,范围从0到1。数值越接近1,表示相关性越强;数值接近0,表示相关性较弱。
总体而言,教育水平与互联网使用频率之间存在正相关关系,而教育水平与生育意愿以及互联网使用频率与生育意愿之间都存在轻微的负相关关系。但由于这些相关系数的绝对值都不是很大,因此这些线性关系都不是非常强烈。
多元线性回归分析
使用多元线性回归模型回归分析来进一步探讨变量间关系,其中因变量是生育意愿,自变量包括互联网使用频率、教育水平,以及互联网使用频率与教育水平的交互项(以检查教育水平的调节作用)。
经过计算,得到以下结果:
模型的均方误差(MSE)为 0.6028,决定系数 为 0.0233。线性回归模型的系数分别为:
互联网使用频率的系数:-0.0382;
教育水平的系数:-0.0567
互联网使用频率与教育水平交互项的系数:0.0014
由此可以得出,互联网使用频率和教育水平对生育意愿的影响是负面的,而互联网使用频率与教育水平的交互项对生育意愿的影响是轻微正面的,教育水平对互联网使用频率与生育意愿之间的关系有轻微的正向调节作用,不同教育水平的育龄女性对互联网信息的接收和处理可能存在差异,进而影响她们的生育决策。但这些系数的大小和符号只能在一定程度上说明变量之间的关系,并不能完全确定因果关系。
均方误差(MSE)是衡量模型预测值与实际值差异的指标,其值越低表示模型的预测精度越高。在这个案例中,MSE 的值为 0.6028,说明模型的预测误差较大。
决定系数衡量模型对因变量变异的解释程度,其值范围从 0 到 1,值越高表示模型对数据的拟合程度越好。在这个案例中,决定系数的值为 0.0233,说明模型对生育意愿的解释能力较弱。
育龄女性生育意愿受到多重因素影响,且作用关系十分复杂,本研究仅考虑到两个受教育水平、互联网使用频率两个解释变量,因此模型预测误差较大,解释能力较弱,但也在一定程度上反映了三者之间的关系,未来可能需要考虑增加其他变量来进一步提高预测的准确性。
小结
主要结论
1. 育龄女性的受教育水平与互联网使用频率直接具有显著的正相关关系。育龄女性的受教育水平对其从事的工作种类具有直接影响,进而影响其互联网使用频率。受教育水平越高的育龄女性,互联网使用频率越高。
2. 互联网使用频率与生育意愿之间存在轻微的负相关关系。即随着育龄女性互联网使用频率的增加,其生育意愿略有下降。互联网提供了大量的信息和知识,包括关于生育选择、育儿成本、教育需求等方面的数据进而使育龄女性更加清晰地认识到生育所带来的长期影响,从而更加谨慎地考虑生育决策,降低其生育意愿。然而,这种关系并非单一直接联结,而是受到个人价值观、社会文化背景、经济条件、家庭支持系统等多重因素的交织影响。因此,尽管互联网使用与生育意愿之间存在一定的联系,但二者间相关系数的绝对值较小,需要从更多角度探究其内在机制。
3. 教育水平与生育意愿存在负相关关系。即随着教育水平的提高,生育意愿有所下降。这个相关系数的绝对值比互联网使用频率与生育意愿之间的相关系数要大,因此这种关系比前者更为明显。受教育水平较高的女性越来越重视个人职业生涯的发展,而女性生育后会面临工资下降,晋升机会减少,返回劳动力市场难度加大等,对女性个人职业发展造成了不利影响。
4. 教育水平对互联网使用频率与生育意愿之间的关系有轻微的正向调节作用, 即互联网使用频率对不同受教育水平女性的生育意愿影响有异质性。互联网使用频率对受教育水平较低的育龄女性的生育意愿影响力高于受教育水平较高的女性。受教育水平较低的女性在一定程度上更容易受到互联网上不同信息的影响。相比之下,受教育水平较高的女性由于具备更强的信息辨识能力和更为成熟的个人价值观,对互联网上的信息持有更加审慎的态度,从而减少了这些信息对她们生育决策的直接影响。
不足
由于研究水平和数据本身的限制,本研究存在许多不足之处:
本研究所使用的数据为 CGSS2021 数据,受新冠疫情影响,本期 CGSS 数据在样本量、样本覆盖地区以及数据质量方面有一定欠缺,因此本文的研究结论存在一定局限性。
由于研究水平的限制,本文仅研究了互联网使用频率与受教育程度两个解释变量对被解释变量的影响,忽略了许多其他变量的重要作用,对结果的准确性造成一定影响。
由于对于数据科学这门学科的学习时间较短,掌握知识及理解程度有限,仅运用多元线性回归模型进行简单建模尝试,未能选用更加合适复杂的模型探究变量间关系,模型的准确性与预测性有限。
参考文献
【1】习近平 :人口问题始终是全局性、战略性问题 [EB/OL]. 人民网, 2022-07-11[2024-07-12]. http://politics.people.com.cn/n1/2022/0711/c1001-32471887.html
【2】国家统计局. 2023年我国人口总量有所下降,城镇化水平继续提高,人口素质持续提升,人口高质量发展取得成效[EB/OL]. 北京:国家统计局,2024-01-18[2024-07-12]. https://www.stats.gov.cn/xxgk/jd/sjjd2020/202401/t20240118_1946711.html.
【3】徐瑾,支明悦. 互联网使用降低了居民生育意愿吗?——基于 CGSS 数据的经验分析[J/OL]. 重庆工商大学学报(社会科学版), 2024-03-11.
https://link.cnki.net/urlid/50.1154.C.20240308.1259.002.
【4】王小洁, 聂文洁, 刘鹏程. 互联网使用与个体生育意愿——基于信息成本和家庭代际视角的分析[J]. 财经研究, 2021, 47(10): 110-128.
【5】李艳,李长安. 全面两孩政策后性别角色态度对生育意愿的影响研究[J/OL]. 西北人口, 2024-06-14.
https://link.cnki.net/urlid/62.1019.C.20240612.2229.002.
【6】李从容,高丽霞. 生育性别偏好如何影响育龄女性的生育意愿?——基于社会经济地位的遮掩效应[J]. 南方人口,2024, 39(3): 27-39.