邹明蓁、刘景荣:基于随机森林模型的2023年香港区议会选举影响因素探析

学术   2024-10-16 08:00   广东  

本文首发于《紫荆论坛》2024年7-9月号


本文作者

邹明蓁 海国图智研究院研究助理、暨南大学中国南海周边安全国际舆情监测实验室科研助理

刘景荣 暨南大学中国南海周边安全国际舆情监测实验室科研助理

摘要:

2023年12月10日香港特别行政区第七届区议会选举正式举行,完成了香港特区完善选举制度的“最后一公里”。本文旨在基于随机森林模型,研究“爱国者治港”原则下香港区议会选举中影响直选候选人当选的主要因素,尝试探索新选制下直选候选人如何通过突出竞选政纲差异吸引选票。随机森林(Random Forest)是一种集成学习(Ensemble Learning)方法,由Leo Breiman和Adele Cutler在2001年提出。它通过构建多个决策树(Decision Tree)来解决分类和回归问题,然后通过取平均值(回归问题)或取多数投票(分类问题)的方式来提高预测准确性、泛化能力和抗过拟合能力。本研究根据jieba库自定义词典和自建停用词表,利用Python进行了文本预处理,通过词频分析筛选出与七个核心议题相关的高频词汇并进行量化赋值。



自《全国人民代表大会关于完善香港特别行政区选举制度的决定》(以下简称《决定》)、《2021年完善选举制度(综合修订)条例草案》通过以来,香港特别行政区成功进行了选举委员会选举、第七届立法会选举、第六任行政长官选举,更是在2023年12月10日举行了第七届区议会选举,走完了完善选举制度的“最后一公里”。


区议会选举制度演变

区议会是香港特区地区治理体系的重要组成部分,重塑区议会是完善地区治理工作的重要一环。根据《中华人民共和国香港特别行政区基本法》(以下简称《基本法》)和《区议会条例》,香港区议会是非政权性的区域组织。基本法第97条规定,“香港特别行政区可设立非政权性的区域组织,接受香港特别行政区政府就有关地区管理和其他事务的咨询,或负责提供文化、康乐、环境卫生等服务。”1999年,立法会通过《区议会条例》,明确香港设立18个地方行政区,每区各设立1个区议会,主要职能是就影响地方行政区内居民福利的事宜向政府提供意见,并负责区内的环境、康乐、文化及社区活动等,但不具备立法权和审批政府公共开支的权力。然而,一段时期以来,在反中乱港分子的操弄下,区议会运作不断走偏,以至失范失序。特别是“修*风波”期间,一批反中乱港分子利用制度漏洞进入区议会,将其变成宣扬“港*”“黑*”“揽炒”平台,严重扰乱特区政府依法施政,严重挑战“一国两制”底线,严重威胁国家安全和香港稳定。有鉴于此,香港特区全面落实“爱国者治港”原则,重塑区议会制度,准确落实香港基本法,通过系统性改革使区议会彻底摆脱政治化、民粹化的纷争泥潭,将区议会重新纳入基本法的正确轨道。

2023年7月6日,香港特区立法会三读并全票通过《2023年区议会(修订)条例草案》(以下简称《条例草案》)。《条例草案》涵盖6条主体法例及15条附属法例,就9项主要事宜订定条文。包括:将区议会的总席位从479个减少到470个,其中只有88个由地方选区直接选出,176个由地区委员会间接选出,179个由行政长官委任,27个由乡事委员会主席担任;将地方选区的选举方式从单席单票制改为双席单票制,即每个选区有两个议席,每名选民只能投一票,选出得票最多的两名候选人;引入资格审查委员会,负责审核所有候选人是否符合效忠香港特别行政区和维护《基本法》的法定要求,以及是否符合国家安全法的规定;引入履职监察机制,负责监督所有区议员是否履行宣誓效忠的义务,以及是否违反国家安全法的规定,如有违反,可取消其资格或提请法院裁决;取消区议会主席和副主席的选举,改由民政事务专员兼任区议会主席,负责主持会议和管理议会事务。


研究设计 

在满足提名区议员资格的前提下,为了探究哪些因素可能影响直选候选人当选,本研究假设新选举制度下,直选候选人通过突出政纲差异来吸引选票,并通过定性与定量相结合的方式选定可能的影响因素,利用机器学习算法探究在实验环境下影响因素的重要程度。

1.数据来源与收集
本文选取的数据主要来自2023年香港区议会一般选举网站、候选人社交账号以及香港电台(RTHK)《2023香港区议会选举论坛》(以下简称“选举论坛”)节目。选举论坛邀请了地方选区界别和地区委员会界别的候选人出席陈述政纲及解答地区问题,各候选人需要在30秒内进行自我介绍,在1分30秒内回答一条抽签选出的涉及地区问题的题目。从而从知识面、熟悉地区程度及应变能力等方面考验候选人,增加公众对他们的认识,了解其议政水平。本文整理并构建了一个适用于香港选举话语的数据库,同时按照传统选举研究经验,从选举官网获取了所有出席节目的候选人与政党、年龄、职业等相关信息,以供后续研究使用。
2.数据预处理
获取文本数据后,首先进行数据清洗工作,包括去除无效数据、人工收集产生的失误、重复数据的剔除,及特殊字符的处理。由于主流大数据研究工具处理简体中文文本的效能更佳,本研究将繁体文本转换为简体中文文本。考虑到地方选区界别面向广大选民,候选人需要争取不同团体的选票,因此本研究在剔除未出席节目候选人后确定由44个地方选区的169位候选人的共79091字的有效文本为最终研究样本。

为保障模型的准确性,对文本进行分词、去停用词,是自然语言处理的必要过程。本研究以Python为主要研究工具,在其第三方库jieba库基础上结合搜狗细胞词典、谷歌Gboard词库,并与自行搜集的香港特别行政区政治术语、专有词汇(如“民建联”“避风塘”“三无大厦”等),一同构建了区议会选举术语词典,对研究样本进行分词处理。停用词是指文中出现频率较高但信息量较少的词汇和无用符号,会对关键词抽取产生噪声,因此需要去除。本文根据哈尔滨工业大学、四川大学等开源的停用词表,结合迭代测试结果,形成了一个适用的停用词表。这个停用词表中除了常规的中文停用词例如“的”“大家好”等,以及部分符号例如“!”“、”等外,还包括了如候选人人名、选区名等在特定语境下对模型构建关系不大的词汇,从而更好地规范数据。为了减少不必要的干扰,本研究将香港政团领袖和网络意见领袖的称呼统一为“资深议员”和“KOL”,将所有“政治联系”统一为“政党”以便于后续分析。
3.词频统计
本研究对竞选文本进行词频分析,通过统计词汇在文本中出现的频次,识别和提取话语规律以及候选人们关注的议题信息等要素。

图 1:选举话语词云图

本次选举形成了“身份背景—议题关注—解决路径—预期成果”的竞选话语模式,政党的“代表”功能更为突出,彰显“政党政治”新气象。候选人在选举论坛上提及代表自身政治联系的“政党”共397次,明确区议会的“服务”(273次)对象为“居民”(208次)“市民”(120次),明确区议员负责的对象“政府”共217次,代表其选区范围的“社区”共288次,界定其所属的地方选区的“地区”共108次。具体来说,候选人倾向于从介绍“政党”和“专业”(61次)背景出发,展现“团队”(96次)过往在“地区”和“社区”的“服务”绩效和“经验”(69次),提倡“关注”(58次)区内的“交通”(152次)、“设施”(107次)、“环境”(72次)、“卫生”(39次)、“医疗”(45次)等议题,建议共建“长者”(69次)友好和包容“少数族裔”(17次)、“妇女”(22次)的社区“文化”(56次)。
4.变量操作
本文的因变量为候选人的当选结果,即候选人是否在选举中成功当选,“当选”赋值为1,“落选”赋值为0。自变量包括候选人的性别、年龄、职业经历及候选人竞选文本中所关注的议题。候选人“性别”采用了男(编码为1)女(编码为0)的编码方式,并用同样方式对候选人的“职业经历”进行了分类编码,包括“政党服务经历” “专业人士经历” “商业领域经历” “法律行业经历” “教育行业经历” “社团与社会服务经历” “媒体经历” “区议员经历” “其他经历”。“关注议题”通过前述词频分析中提取的高频词汇量化赋值来表示。具体包括“社区”“地区”“交通”“环境”“卫生”“文化”“资深议员”等7个自变量。除频次外,本研究还将具体语境下相关的词汇频次合并计入变量数值,例如将词汇“女性”纳入“文化”变量当中。本文不作单独的控制变量设置。
5.分析方法
为了探讨影响候选人当选的因素,本研究采用了随机森林分类算法模型。随机森林(Random Forest)是一种集成学习(Ensemble Learning)方法,由Leo Breiman和Adele Cutler在2001年提出。它通过构建多个决策树(Decision Tree)来解决分类和回归问题,然后通过取平均值(回归问题)或取多数投票(分类问题)的方式来提高预测准确性、泛化能力和抗过拟合能力。随机森林的基本思想是构建多棵决策树,每棵树都是独立的,并且树中的特征是随机选择的,这样可以减小模型的方差。在进行预测时,随机森林对每棵树的预测结果进行平均(回归问题)或投票(分类问题),从而得到最终的结果。这种方法适合处理含有大量特征的数据集,在选举研究的情境下,候选人的多种特征可以被模型自动处理,而无需进行事先的变量挑选。同时,通过构建多个决策树并对它们的预测结果进行合并,在统计上能够减少过度拟合的风险,提高模型的表现。

随机森林算法的具体实现步骤如下:
1. 数据集载入。准备所需的数据,加载数据集,处理缺失值并确保所有变量都是数值类型。
2. 数据切割与训练。为了训练和验证模型,将数据集划分为训练集(70%)和测试集(30%)。训练集用于训练模型,测试集用于评估模型的拟合效果和预测精度。自变量包括候选人的各项影响因素特征,因变量为候选人是否当选。使用 train-test-split 函数进行数据集的分割。
3. 在训练集上训练随机森林模型。本研究使用 Random Forest Classifier 构建模型,并设置了随机种子(random-state)以确保结果的可重复性。模型训练完成后,使用测试集数据进行预测。
4. 通过计算准确率、混淆矩阵和分类报告来评估模型性能。准确率表示模型正确预测的比例。混淆矩阵详细显示了真阳性、假阳性、真阴性和假阴性的数量。分类报告提供了精确率、召回率和F1得分等详细指标。
5. 使用交叉验证来评估模型的稳定性。通过5折交叉验证查看模型在不同数据子集上的表现,交叉验证结果展示了每次验证的准确率,并计算了平均准确率,以评估模型的泛化能力。
6. 评估每个特征(影响因素)的重要性。特征重要性反映了每个特征对模型决策的贡献。使用Random Forest Classifier的 feature importances属性获取每个特征的重要性,并对其进行排序。通过matplotlib库可视化特征重要性,展示特征对模型的影响大小。


结果与讨论


1.模型性能

表 1:混淆矩阵

模型的总体准确率为82.35%,这意味著在测试集的51个样本中,有42个样本被正确分类。模型在识别候选人是否当选方面表现出较高的可靠性和稳定性。混淆矩阵显示,在23个实际未当选的候选人中,有17个被正确分类为未当选,有6个被错误分类为当选。在28个实际当选的候选人中,有25个被正确分类为当选,有3个被错误分类为未当选。这些结果表明,模型在预测当选的候选人时具有较高的准确性,但在预测未当选的候选人时存在一定的误差。

分类报告进一步细化了模型的性能。对于未当选类别(0),精确率为0.85,召回率为0.74,F1得分为0.79。对于当选类别(1),精确率为0.81,召回率为0.89,F1得分为0.85。总体来说,模型的宏平均精确率、召回率和F1得分分别为0.83、0.82和0.82,这表明模型在两个类别上的表现比较均衡,但在识别未当选候选人方面稍逊色于当选候选人。交叉验证的平均准确率为68.24%。通过5次交叉验证,模型在不同数据子集上的准确率分别为55.88%、67.65%、73.53%、82.35%和61.76%。这一结果表明,模型的性能在不同数据子集上有所波动,但总体保持在较高水平。这反映出该模型具有一定的泛化能力,能够在不同的样本数据上维持较稳定的表现。
2.影响因素解释“政党能力”的特征重要性约为23%,是最重要的影响因素。“政党能力”由候选人所属政党的公开党员人数,政党在立法会的议席数量,政党高层担任港区全国人大代表、全国政协委员的情况构建。过往选举经验说明,在地区投入较多资源、时间进行地区服务的政党更有可能取得席位。本研究结果表明,候选人所属政党的规模越大,政党能力越强,该政党越有可能通过其庞大的地区网络和工作模式吸引选票。

表 2 :分类报告

“年龄”是第二个重要的因素,特征重要性约为15%。年龄往往与候选人的经验和背景相关。较年长的候选人可能拥有更多的地区经验和社会资源,这些因素在选举中可能会给他们带来优势。然而,年轻候选人也可能因为“新面孔”而赢得选民的支持。研究发现,本届区议会地方选区候选人平均年龄约为38岁,比2019年区议会选举整体的平均年龄(40.3岁)低2岁,则进一步验证了区议会候选人年轻化的趋势。结合“区议员经历”的特征重要性(约5.4%),以上结果可能表明本届选举候选人更加年轻化、多元化。

与地区议题相关的影响因素显著,特别是“交通”和“社区”,分别约为10%和9%。结合政治现实来看,交通是全港市民十分关注的议题,不论是港岛、九龙还是新界,主要的需求都是围绕当区交通规划和配套如港铁班次和巴士路线而展开。值得一提的是,“资深议员”的结果不显著,这再一次验证了“明星效应”的含金量下降,难以靠“政坛明星”吸引选票。


结论

首先,“政党政治”是香港选举最大的特色,“政党能力”是影响候选人当选的最重要因素。研究表明,候选人所属政党的能力越大,其当选的可能性越高。此结果揭示了政党在选举过程中的核心作用,特别是在资源分配、组织动员及选民影响力方面的显著作用。这一发现与以往选举研究结论一致,进一步证实了政党“代表”功能和“组织动员”能力在香港选举中的重要性。

其次,年龄显著影响候选人的当选概率。较年长的候选人由于累积了更多的地区经验和社会资源,获得选票的可能性更大,但年轻候选人在选举中也表现出较强的竞争力,反映出选民对“新面孔”的接受程度较高。地方议题的关注度对候选人当选具有显著影响,特别是交通和社区议题在此次选举中起到了关键作用,选民更倾向于支持那些能够提出具体、可行的对策来解决他们日常生活问题的候选人。

图 2 :模型特征重要性排名

此外,研究显示,“明星效应”在本次选举中并不显著。即使候选人争取到知名度较高的“明星”撑场,如果未能提出具体的政策和解决方案,选民也未必会给予投票支持,这进一步表明,选民在选择候选人时更加注重实际的政绩和问题解决能力。

本研究首次将随机森林模型应用于香港区议会选举研究中,证明了其在处理复杂选举数据和识别关键因素方面的有效性。随机森林模型能够处理多变量的复杂关系,并通过评估变量的重要性,揭示影响选举结果的关键因素。这一方法为未来的选举研究提供了新的工具和思路,为理解香港选举制度和方法提供了一定的参考意义。

本研究选取的影响因素都属于信息较易获取、能够量化处理的变量,但也有一些因素同样对候选人当选有重要影响,如候选人的“桩脚”数量及效应,选民个人特征和态度等。对于这些因素,本研究既无法系统性地获得准确信息,也难以将此类信息量化,所以不得不舍弃。由此可能难以全面准确地反映当选规律,这也是量化研究所普遍存在的缺陷。因此本文的研究并不能替代定性研究,而是对定性研究的补充。同时,本研究的模型对当选预测的总体准确率为82.35%,也就是说,仍有约18%的投票选择没有被正确预测,这部分的预测错误集中体现了本文忽略了其他因素所带来的缺陷。因此本文只反映了选举影响因素的一部分,对于更全面准确的理解,有赖于在未来的研究当中对于综合性的、难以量化的因素进行更加深入的分析。  

来源:紫荆

海国图智研究院
海国图智研究院,定位于新型、独立的国际关系社会智库,诚愿以热点资讯、原创评论和深度报告等优质学术产品,服务于全球化背景下“开眼看世界”的中外读者。
 最新文章