【实验室活动】| 北清国关实验室“实证博弈分析”联合论文字实录

文摘   2023-10-10 10:38   北京  


2023年4月16日,第1届北清国关实验室联合论坛“实证博弈分析”圆桌会议在清华大学邺架轩顺利举行。在会议中,清华大学公共管理学院副教授陈济冬、上海交通大学国际与公共事务学院副教授陈佳、北京大学国际关系学院助理教授卢晓、清华大学国际关系学系副教授漆海霞、北京大学国际关系学院助理教授祁昊天、北京大学国际关系学院教授庞珣、中国社会科学院世界经济与政治研究所研究员杨原、清华大学国际关系研究院副研究员周建仁等8位专家围绕“博弈论:逻辑推理和机制追踪的理论”、“实证研究:理论证伪与机制评估”、“实证博弈分析:理论与实证的共进”3个主题进行了深入讨论和交流。本文是此次圆桌会议的文字实录,以供感兴趣的听众和读者参阅。




01 嘉宾介绍(姓氏拼音排序)

陈济冬,清华大学公共管理学院副教授,博士生导师,主要研究方向包括:治理与发展、应用博弈论、社会科学实验方法等。相关研究成果发表于American Journal of Political Science, Journal of Politics, Quarterly Journal of Political Science, Political Science Research and Methods,Journal of Public Economics、《世界经济与政治》等期刊。担任学术期刊Political Science Research and Methods (the Journal of European Political Science Association)编委会成员。


陈佳,上海交通大学国际与公共事务学院副教授。研究领域为国际/比较政治经济学、国际制度、经贸政治及争端解决。在Political Research Quarterly、Studies in Comparative International Development、the Canadian Journal of Political Science等期刊发表论文数十篇。
卢晓,北京大学国际关系学院助理教授,北京大学全球风险政治分析实验室数据与方法主管。在American Political Science Review、Political Analysis、Journal of Theoretical Politics等期刊发表文章。

漆海霞,清华大学国际关系学系副教授、副系主任,清华大学国际关系研究院副院长,清华大学国际关系数据与计算实验室主任,《国际政治科学》执行主编。研究领域为冲突解决理论、大数据国际关系、中国外交等。在Chinese Journal of International Politics、《中国社会科学》、《世界经济与政治》等杂志发表论文数十篇。

祁昊天,北京大学国际关系学院国家安全学系助理教授,国际安全与和平研究中心副主任,中外人文交流研究基地秘书长,全球风险政治分析实验室项目主管,国际战略研究院特约研究员。主要研究方向为科技变迁与国家安全、军事战略与技术、冲突管控、社会科学方法论。负责授课包括国家安全学导论、International Security Studies、Introduction to International Public Policy、技术变迁与国家安全、政治博弈论、社会研究方法等。承担课题包括国社科重大专项、自科基金专项等。

庞珣,北京大学国际关系学院教授,北京大学全球风险政治分析实验室主任,Political Analysis副主编,研究兴趣主要为全球风险的政治经济学、全球化与全球治理、贝叶斯统计、社会科学因果推论、社会网络分析等。
杨原,中国社会科学院世界经济与政治研究所研究员,《世界经济与政治》编辑部主任,中国社会科学院大学国际政治经济学院教授。

周建仁,清华大学国际关系研究院院长助理、副研究员,清华大学国际关系数据与计算实验室学术委员会主席。主要研究兴趣包括国际安全、国际关系理论以及中国对外政策。近年来一直聚焦于同盟政治、权力转移理论以及战略信誉的研究,成果发表在国内外国际关系主流期刊Chinese Journal of International Politics、《世界经济与政治》、《当代亚太》、《国际政治科学》等,并著有《走向决裂:弱国退出同盟之谜》。


02 第一部分会议纪要

1、博弈论:逻辑推理和机制追踪的理论

主持人:陈济冬(清华大学公共管理学院副教授)

漆海霞(清华大学国际关系学系副教授):

这是北京大学全球风险政治分析实验室和清华大学国际关系数据与计算实验室的第一次合作,很荣幸邀请到在座各位专家。今天讨论的主题是实证博弈分析,这个主题最初产生于庞珣老师、陈济冬老师和我关于如何借助实验室平台提升学术界应用研究方法水平的一次讨论。庞珣老师在讨论中提出了一个我们都有共同感受的观点,也就是说,很多研究方法看上去很美,但在使用过程中面临许多操作性困难。我相信在座诸位老师对此都深有同感。因此,我们两个实验室希望共同组织这次会议,邀请大家交流对研究方法的看法,帮助大家规避在使用博弈论和实证方法过程中可能面临的漏洞和弱点,最终更好地服务于我们的科研,这是我们今天会议的主旨。非常感谢大家百忙之中抽空参会,这算是我们疫情后的第一次线下会议,欢迎大家的到来。

庞珣(北京大学国际关系学院教授)

今天的研讨会我们选择了这样一个主题,不是因为博弈论小众到需要拯救,而是我们的学习和研究需要更好的博弈论训练和意识。一方面,咱们中国的国际关系学经历了从方化排斥到方法崇拜,再到方法焦虑,现在该讨论方法祛魅了。另一方面,大家现在有另一个大的焦虑,就是理论创新的停滞不前,跟不上方法创新。一般谈方法都是指实证方法,谈理论好像就是方法的反面,似乎理论的创新性构建靠神秘主义而不是有章可循的方法。实际上,理论创新也必须依靠方法,这个方法就是逻辑。比如自然科学、还有经济学里,做理论的学者日常工具就是数学,理论创新中“卡脖子”问题很多时候也是数学训练不够。国际关系的理论逻辑很难用到高深的数理逻辑,但无论以什么形式呈现,逻辑方法都是理论构建必须的。理论和猜想之不同,就在于理论需要完成逻辑推理过程。我们每个人都有很多灵感、有的听上去还非常妙,但是理论不是听上去妙或者对就能成为理论,而是要有明确的前提假定和严格的逻辑推理。博弈论实际上就是这样的逻辑方法。它之所以被很多人诟病说太不好用,就是因为透明和严格,提高了理论的标准——在博弈论面前,似是而非、大而化之的主张是过不去的。

关于博弈论脱离现实的批评很流行。对这种批评我是不以为然的,作为理论方法,它不需要呈现一个现实的场景。如果它这么做了,才是该被批评的。我在这里就不展开了。说这么多,主要是希望我们今天能够畅所欲言、各抒己见,深入地探讨内心的想法和灵感,分享在研究中遇到的问题和产生的思考,进行思想的互动和碰撞,学术讨论过于一团和气并不是好事。

我们的第一场交流将由陈济冬老师主持。

陈济冬(清华大学公共管理学院副教授):

对我来说,今天是一个非常好的学习和交流机会,我先简单谈一下自己的想法。我昨天读了一篇关于罗伯特·鲍威尔的纪念文章,文章回顾了鲍威尔一生的学术经历和成就,指出鲍威尔借助博弈论这个研究工具为我们理解战争、政治冲突等一系列问题做出了很重要的贡献。从这个意义上来说,博弈论是帮助我们构建理论的重要工具。在一次交流中,鲍威尔曾经提到关于学术界目前更加重视大数据方法而忽视博弈论的原因,他认为这只是一种流行趋势,任何新的研究方法在刚引入某个学科的时候,都会受到重视和大量使用,博弈论在20世纪80年代被引入国际关系学时,同样引起了一股热潮。

我个人认为,不同研究方法的流行与时代特征有着重要的联系。大数据方法之所以最近十几年越来越流行,是因为数据可得性在新世纪得到了极大的提升。从这个角度来说,博弈论之所以在当下变得“小众”,一方面因为各个学科领域的“大”理论已经相对完善了,学者们只能借助博弈论来研究一些相对具体的议题;另一方面则是因为大数据方法流行之后得到更多学者的重视和使用。

值得注意的是,数据分析本身并不是理论构建。当然,博弈论本身也不是理论,对于政治学家来说,博弈论仅仅是一个工具,但它能在构建理论的过程中起到独特的作用。好的,我先讲到这里,把时间留给各位老师。


陈佳(上海交通大学国际与公共事务学院副教授):

刚才陈济冬老师提到,博弈论在政治学和国际关系学中曾经非常热门。政治学和国际关系学在传统认知中并不算是对应用数学方法感兴趣的学科,为什么会突然接受博弈论这种在当时还不算成熟的基于数理模型的研究方法,这本身也是一个值得我们去思考和讨论的问题。

我认为,政治学与国际关系学出现博弈论热潮的一个重要原因是我们对于科学的追求。在英文中,政治学是唯一将“科学”(science)这个单词直接放在学科名称中的社会科学学科。虽然这对我们可能没有太多意义,但实际上却成为了我们学科认同的一个非常重要的部分。自然科学领域对于证明理论以及判断和比较理论的可行性有一些相对明确的标准和客观的经验材料,但政治学领域长期以来对此并没有明确的共识。因此,当一个看起来非常符合科学程序、带有许多希腊字母以及各种复杂证明体系的方法被引入时,就逐渐唤起了我们对于科学的信仰,并重新帮助我们找回了政治学的科学属性。

关于博弈论热潮的逐渐衰退,我认为最主要的原因是博弈论的许多假设无法适用于现实世界。例如,博弈论强调决策的相互影响,在国际关系学科中,这种相互影响是必然存在的,但其他领域可能并非如此。此外,政治学和国际关系学也强调结构性因素的影响,一些学者甚至认为结构性因素的重要性高于行为体之间的互动,因此他们认为博弈论无法揭示社会现象中最重要的因素。


陈济冬(清华大学公共管理学院副教授):

国际关系领域通常将“理性人”假设运用于国家间互动,这种理性假设对于国家决策来说相比于其他领域更合理一些。比较政治学领域主要关注的是国内行为体,如果将普通民众或基层政策执行者等视为“理性人”,可能会受到一些质疑,从这个角度来看,在国际关系领域使用博弈论可能比比较政治学领域更为合适。

漆海霞(清华大学国际关系学系副教授):

我认为有两个问题值得大家注意。第一,博弈论在不同学科的应用前景实际是不一样的,在国际关系领域主要运用于冲突与竞争,而在比较政治领域的适用场景更为丰富。然而,如果说博弈论建立在“理性人”假设基础上,那么为什么其适用场景在遵循这一假设的国际关系领域前景反而相对更小呢?第二,我们需要重点关注博弈论对于研究的核心贡献,而不是一味强调博弈模型本身,在使用博弈论的文章中,核心的理论发现才是最重要的。


杨原(中国社会科学院世界经济与政治研究所研究员):

根据刚才的讨论,在使用博弈论的过程中,为了让博弈模型尽可能接近复杂的社会现象,我们必须增加博弈模型的复杂性,但过于复杂的博弈模型又难以得到普遍的接受,这种困境是导致博弈论逐渐被边缘化的一个重要原因。

除此之外,我认为博弈论的式微还受到两方面因素的影响。第一是学科的发展阶段,在学科刚刚发展起来时,我们依靠相对简单的理论就能解释社会现象,但随着学科不断发展,我们试图解释的社会现象也越来越具体和复杂,这些现象难以从博弈论的演绎过程中得到充分解释。就像21世纪的物理学研究以实验物理为主导,因为从理论假定出发得到的结论是有限的,物理学家们不得不通过实验和观察的方法发现客观世界的运行规律。第二是博弈论自身的局限性,博弈论的核心思路建立在求解纳什均衡基础上,这种思路更适用于解释共通性,但社会科学更多关注和解释的是差异性,虽然社会科学也关注一般规律,但与自然科学相比,它的任务更多是发现和解释差异性,这是博弈论运用到社会科学研究中的局限所在。


庞珣(北京大学国际关系学院教授):

我认为任何学科都要同时解释差异性和相似性,而且博弈论本身并非不能解释差异性,博弈模型中有许多重要参数,不同的参数取值会导致结果的差异性。


杨原(中国社会科学院世界经济与政治研究所研究员):

我所指的社会现象差异性指的是,在现有理论所强调的因素保持一致的情况下,为什么不同场景中的结果还是出现了差异。当出现这种差异性时,我们就需要寻找其背后隐藏的因素。社会科学与自然科学当然都同时研究差异性和相似性,但我认为它们的重点是不同的。


陈济冬(清华大学公共管理学院副教授)

我认为杨老师和庞老师讨论的内容可能涉及两种不同的研究视角。例如,在解释国家间为何不合作时,一方面我们关注的是不合作的国家之间有什么共同的特征,这类研究更多强调相似性;而另一些研究则更多关注合作与不合作的差异,国家在什么条件下会合作,在什么条件下会不合作,这类研究关注的是差异性。

对我个人而言,博弈模型的最大优点是可以帮助我们进行思想实验,即假设某个参数发生变化后,现实情况会如何改变。博弈论在这方面是有效的。当然,博弈论的作用不仅如此。我认为博弈论可能有两个具体的应用场景。第一是我们可以通过博弈模型向读者展示具体现象背后的因果机制,这是博弈论的解释功能。第二是我们可以借助博弈模型进行思想实验,这是博弈论的预测功能。在博弈论的研究中,这两类文章都存在。

近些年全球的经济、社会和政治中涌现出现了很多新现象,我们社会科学家可能既没有完全做到对所有这些现象的识别和刻画,也没有完全理解他们背后的机制。因此,为了探究这些现象背后的规律,我们仍然需要借助博弈论来进行理论建构。

国际关系领域之前一些使用博弈论方法的研究是比较有影响力的,例如费伦和鲍威尔的一些研究。国际关系研究中尤其是冲突研究中由于数据相对稀缺,这时候有可能就会导致大家更看重关于不同变量之间逻辑性、结构性关系的思考。博弈论是有助于展示逻辑关系的理论工具,如何提炼现实世界中的重要因素,这也是使用博弈论过程中最为关键的步骤。


周建仁(清华大学国际关系研究院副研究员):

我也分享一些想法。首先,关于博弈论方法在政治学和国际关系学中的应用,博弈论在国际学术圈也许曾经引起过热潮,但在中国国内一直属于小众,用博弈论方法进行的原创性理论研究则更为小众。其次,关于博弈论为什么小众,我认为有三个原因。第一,博弈论并没有带来独特的新知识,用博弈建模方法发现的知识,用一般的语言逻辑推演也能推导出来。当然,博弈建模能够展示更加清晰充分的逻辑推演过程以及更加明确的前提假定,甚至能够发现原先没有意识到的隐含的前提假定。第二,现在的博弈模型都很复杂,逻辑链条非常长,这种复杂、不简洁、不清晰的研究方式会引起人们对博弈模型的质疑,即现实世界的决策者也许并不是博弈模型所推演的那样进行思考和决策,因为决策者很多可能不具有进行复杂博弈推演的能力。因此,如果我们只是把博弈模型作为逻辑机制构建过程的一部分,我认为是可行的,但如果为了匹配现实世界而将博弈模型构建的越来越复杂,我认为这偏离了我们理论研究的本来目的。

我认为现在的博弈论研究有两种类型。一种是探索式的理论研究,这类研究用简单的博弈模型向我们展示理论机制,例如囚徒困境和阿罗不可能定理。另一种是仿真式研究,这种研究试图尽可能模拟现实世界中的博弈过程。然而,由于现实是非常复杂的,一些研究者在推演博弈模型的过程中不得不增加一些假定以匹配现实,这就使模型变得越来越复杂,也就丧失了理论的简约性。

最后是因为国际关系学越来越重视实证研究,无论是用定量统计方法和还是用定性案例比较方法,出现了重视实证检验过程而忽视理论建构的趋势。而博弈论适用于进行理论建构,既然忽视理论建构本身,用于理论建构的博弈论自然也就会越来越小众。当然,国内国际关系学界运用博弈建模进行理论研究非常小众的一个很重要原因是国内的大多数学者缺乏进行博弈建模的知识基础。


祁昊天(北京大学国际关系学院助理教授):

关于博弈论在政治学与国际关系学中为何小众,我同意周老师的看法。陈济冬老师刚才提到国际关系学需要提炼现实世界的要素,因此需要使用博弈论的方法。从另一个角度来想,也恰恰因为我们不掌握许多现实(外交、国关和国家安全)领域的基本信息,所以可以通过构建博弈模型依托演绎逻辑来理解现实世界背后的运行逻辑。

关于博弈论的发展趋势,我认为目前面临两方面的压力和动力:一是定量方法的迅速发展和广泛应用,二是定性方法的回潮。这里附带有一个认识定位的问题,许多定性同行将博弈论视为一种定量方法,但实际上,博弈建模更可以被视为以代数方式进行的与定性方法相辅相成的方法。另一方面,由于数据带来的信息相比单纯的代数公式更加直观,被认为更加可靠,选择广义定量路径的同行更倾向于统计而非博弈方法。

此外,博弈论作为一种方法也存在内在挑战。第一,基于博弈论的创新很难。第二,博弈论本身的假设其有效性和真实性经常不被信任。第三,正如周老师所言,博弈模型的推演过程正变得越来越复杂,导致学者们对博弈论的接受程度进一步下降,并且博弈模型中随着逻辑链条变得越来越长,新知识的累加却没有跟上。

从具体研究来看,在政治学和国际关系领域基于博弈论的发表普遍存在两个问题。第一,许多论文在博弈模型基础上未将数值和现实世界进行连接,导致我们难以理解其背后的意义。也是在这个意义上,我认为博弈论可以也应当与定性方法进行深度结合,这样才能得出更加有意义的研究发现。此外,有些特别是基于仿真的研究发现会与用定性方法得出的结果不一致,但博弈论一端基于方法论层面的心理优势,认为定性结论是错误的。但实际上,如果仿真和定性的判断之间出现偏差,更有可能是前者出了问题,这是需要反思的。

第二,许多研究对博弈论方法本身不忠诚,只是使用博弈论的语言和概念去进行模棱两可的研讨,而并未深入博弈模型内里机制。例如,在俄乌战争之后,有不少所谓使用博弈论的论文被发表,但实际上只涉及博弈论的基本概念,使用不一定准确,博弈逻辑未得到呈现,博弈方法可支撑的讨论未得到呈现。这种对博弈论的庸俗化使用会影响学界对博弈论的认知,损害博弈论的接受度和应用前景。

我们要看到博弈论的正向作用。博弈论很难带来理论层面的创新,但它在一些时候确实能帮助我们刻画现实。例如,我的研究领域主要集中在军事战略和技术战术,博弈论能够帮助我发现一些仅凭言语无法精确提炼的新发现,博弈论作为方法有其独特的作用。

再回到博弈论小众这个问题,我认为社会和文化因素也有重要影响。中国学界目前可能正处于一种尚未完全消化和吸收西方现代社会科学体系,同时已开始不信任基于西方哲学逻辑和文化体系的理论化尝试、路径或具体模型的状态。但我认为,这种深层次的差异应该可被用来扩展博弈论的思路和模型,例如,很多似乎超越范式和方法的因素,如文化等,是完全可以在传统博弈论的“天花板”之内对其进行完善和补强的。一刀切的拒绝和否定过于草率。

关于这一点,我是有困惑的。我们中国人是喜欢理论和规律的,但为什么基于演绎逻辑的博弈论方法不被接受?这其中也许有博弈论本身的原因,如数学门槛等。但关于博弈论中的底层思维逻辑,我认为中国和西方是存在共性的。例如中国传统兵法和谋略思想与实践中有关决策、预测和互动的讨论,与我们所学的国际关系领域的理论有许多地方存在一致性,有互鉴互证的空间。


卢晓(北京大学国际关系学院助理教授):

博弈和博弈论这两个概念并不完全一致,博弈的思想早在我国古代就已有之,而博弈论是用建模的方法将博弈逻辑更为精确地表达出来,这是国际学术界在20世纪初逐步建立,直到二战以后才迅速逐渐发展起来的学术领域。关于博弈论为何小众,我认为主要有以下几点原因。

第一是博弈论的学习成本与收益并不完全相称,专门研究博弈论的学者数量相较而言依然较少。

第二是实现博弈论的学术突破较为困难。例如在比较政治学中,学者们试图通过博弈论来提取政策现象背后的因果机制,但是许多分析结果取决于议题设置和制度设计。众多博弈理论在构建复杂模型的同时,并没有发掘创新性的解释机制。

第三是博弈论研究很难进行积累。前人的博弈论研究在为我们带来理论基础的同时,也带来了学习上的巨大挑战,完全还原前人研究中所构建的复杂模型需要耗费研究者大量的学习和时间成本。此外,随着研究对象差异性的增加、行为体数量的增加以及博弈阶段的增加,博弈论研究所面临的计算难度也会大大增加。博弈模型复杂程度的上升不仅给博弈论研究者提出了更高的要求,也进一步提升了论文评审的难度。这同时也削弱了学习和掌握博弈论的吸引力。尽管面临学习成本高、学术突破难、研究成果可复现性低等难题,博弈论仍不失为一种至关重要的思维训练工具和理论建构途径。


庞珣(北京大学国际关系学院教授):

刚才谈到了对博弈论的悲观看法。其实对一种方法在了解之初就抱着“有没有用”的审视态度是有害的,方法本身有智力之美,方法的创造性使用也如绘画技法一样可以产生动人心魄的艺术感或者令人鄙夷的匠气,这取决于一个人的品味和旨趣。博弈论也是如此,让人看到它多有用,吸引的不过是逐利者;让人看到它有多美多精彩,吸引的才是我们真正想吸引的人,那就是求知者。我们可以通过推荐一些精彩的博弈论研究来让学生们感受到博弈论的魅力,从而吸引大家学习博弈论。只有研究者真正感受到了博弈论的精彩之处,博弈论才能得到持续的发展,而不是仅仅是一种时髦(或者过时)的工具。


杨原(中国社会科学院世界经济与政治研究所研究员):

我分享一个博弈论启发我研究的例子。很多老师在讨论博弈论的核心功能时提到,博弈论在分析互动条件下的理性行为选择方面具有核心竞争力。在战略界和学术界,很多学者认为相互确保摧毁是核威慑成功的重要条件,甚至有些人认为,只要一个国家拥有足够确保摧毁对手的核武器数量,就可以实现核威慑。如果我们不借助博弈论或者互动视角来分析这个问题,我们可能会认为,只要双方都拥有足够的核武器数量,就可以建立核威慑,从而避免战争的发生。但如果我们从博弈论的思路或互动的视角进行分析就会发现,国家还需要考虑报复的对等性和威胁报复的可信性,而这些因素可能会削弱核威慑的效果。从这个例子可以看出,博弈论具有独特的功能和优点,在某些问题上是不可替代的。


周建仁(清华大学国际关系研究院副研究员):

费伦解释战争的文章让我印象深刻。他在文章中构建的博弈模型非常简洁,并且只占据文章的小部分,但得出的结论却非常重要。我认为他的文章核心是对现有国际关系理论的批判、整合和构建,而不是数学推导或建立博弈模型的过程。


陈济冬(清华大学公共管理学院副教授):

我认为博弈论只是一个工具,使用博弈论写作过程中需要重视与现有具体议题文献进行对话,它的作用只是帮助我们更好地表达和展示理论。我认为,简洁和有用是评价博弈模型的主要标准,它首先必须帮助我们更好地理解现实,在此基础上越简单越好。


庞珣(北京大学国际关系学院教授):

许多博弈论研究者经常忽略提取博弈模型的理论含义。博弈论本身需要有现实关怀,我们将得出的结论以及在推导过程中得到的条件与现实进行联结。博弈论的推导过程一般比较繁复,我们在行文上需要化繁为简、把直观的核心部分提取出来,推导过程能放到附录就放到附录。


祁昊天(北京大学国际关系学院助理教授):

关于方法“魅惑”,我认为将博弈论方法与经验现象进行联系,通过博弈方法展示行为选择的差异性,从构建模型和求解模型中收获成就感,都能够在教学和科研培养中吸引更广泛学人学习、使用和有效发挥博弈论方法的优长。


陈佳(上海交通大学国际与公共事务学院副教授):

博弈论本质上是在还原直觉,而不是创造新的知识。博弈论能够将我们感兴趣的现象还原成一些直观的要素,使我们更加清晰地认识到现象背后的机制,我认为这其实也是博弈论的魅力之处。只不过我们需要思考如何用更好的方式将博弈论的使用过程展现出来。


陈济冬(清华大学公共管理学院副教授):

非常感谢各位老师的精彩演讲。我在研究过程中遇到的困难跟大家提到的也很相似,我认为博弈论研究中最难的是如何发现问题、如何关照现实、以及如何以简单易懂的方式呈现出来。博弈论对于社会科学研究有其可取之处,但也面临许多挑战,需要大家共同改善。今天上午的讨论到此结束。




03 第二部分会议纪要

2、实证研究:理论证伪与机制评估

主持人:漆海霞(清华大学国际关系学系副教授)

漆海霞(清华大学国际关系学系副教授):

上午老师们就博弈模型的应用前景和使用途径进行了非常有建设性的探讨。本节讨论的主题是“实证研究:理论证伪与机制评估”。我们之所以选择这个主题,是因为我们发现,实证研究已经成为学术界的发展趋势,无论是定性方法还是定量方法,都已经被学者们普遍接受。但当这些方法成为潮流时,我们也需要关注如何保证研究质量。我们发现当前存在一些研究过度关注数据或模型,而相对忽略了文章的理论贡献。因此,我们希望在座老师共同交流关于如何保证研究质量的想法和见解。

我们初步列了几个讨论问题。第一是实证研究的类型、目的和功能。我们知道实证研究可以分为定性研究和定量研究,那么它们的功能和目的存在哪些明显的区别?第二,当我们面对大量不同类型的研究时,如何判断一项研究是“好”的研究?关于这一点,我与庞老师交流时存在共识。大家总是倾向于认为发表在顶级期刊上的论文一定就是好的研究,但我们认为这个标准不能成为判断研究好坏的唯一依据。一项好的研究应当有助于加深我们对于理论或某个具体问题的理解和认识,帮助我们更好地找到真理。第三是关于国际关系定量方法应用的特点和趋势。我们在使用方法的过程中是否存在一些被忽略的漏洞?例如,有些方法具有前提性或假定性的问题,但是否在应用过程中会被忽略?此外,我们可以发现很多研究方法本质上都是进行比较,我们应该如何利用这种共通性来推进研究方法的发展?第四,我们还希望讨论数据生成机制和一些新现象,以及这些现象给研究方法的进一步发展所带来的挑战。

我先分享一下自己的想法。我认为我们国关学科整体上取得了很大进步,20年前我们还在讨论是不是要做实证研究,如今已经开始讨论怎样做出好的实证研究,这是一个好的趋势。但是我们也可以发现目前实证研究存在的一些问题,有些文章过于繁琐,虽然看上去非常严谨,在细节上做得很好,但并没有带来更强的说服力。

我认为理论和技术之间如何更好衔接是当前国关实证研究亟需解决的重要问题。在这种情况下,我认为我们未来需要思考的问题是,在实证研究蓬勃发展的背景下,为什么理论的发展相对停滞不前?近十年来,国际关系学科没有出现像以前那样大受欢迎的理论。随着证明理论的技术越来越强,我们提出理论的能力却相对越来越弱。但事实上,技术的目的是为了证明理论。我们现在过度追求技术,越来越关注研究方法,而忽略了研究方法的本质是用来证明理论,这就导致我们的研究呈现出重末轻本的趋势。在这种情况下,扎实的案例研究就有其可取之处,因为它更全面、更深入地展示整个过程和细节。而有些定量研究仅仅依赖数据分析,可能缺乏对相关事例的深入了解。

过于注重方法而忽视了研究问题和理论价值可能导致研究结论的偏误。研究者可能对研究问题不够熟悉,只是因为主观上偏向某一结论,同时数据上也找到了相关性,就容易将数据往自己的预想方向解读。然而数据表面的相关性背后可能有复杂的机理,我们不能简单解读。否则这样的研究就很难成为真正扎实的、对学术界有贡献的研究。我们需要反思数据先行这种研究路径,在缺乏对相关事件的深入观察时,单纯跑数据模型得出的简单统计结果可能会导致想当然的结论。我认为这样的研究反而会破坏实证研究的价值。


庞珣(北京大学国际关系学院教授):

其实我们并不是真正重视方法。很多人根本不愿意下功夫来理解研究方法的理论原理、工作条件、限制范围等等,而是急于操作,恨不得它就是个绞肉机,把什么都扔进去绞就行了。不去理解方法、而是张口闭口“最新的方法”或者“最先进的方法”,跟快餐时尚一样,问今年流行什么、今天流行什么。这不是重视方法,而是不重视方法。


杨原(中国社会科学院世界经济与政治研究所研究员):

我想借威胁可信性与威慑有效性的问题谈一谈对于数据生成机制的看法。根据传统威慑理论的基本观点,威慑方的威胁越可信,威慑就越容易成功,这个观点听起来很直观,似乎没有什么问题。但是,包括理查德·勒博在内的一批学者却发现,即使在威慑方的威胁非常可信的案例中,威慑成功的情况也是非常罕见的。基于此,他们对传统的威慑理论提出了挑战,认为威慑作为一种安全手段在实践中几乎是无效的。

然而,从数据生成的角度来看,勒博等学者的观点实际上是存在问题的。问题的核心在于,他们在选择案例时没有考虑这些案例的生成机制。我们通常将威慑分为一般威慑和即时威慑两个阶段。在一般威慑阶段,威慑并不是针对特定国家,而是针对所有国家。如果一般威慑有效,那么就不会有国家向威慑方发动进攻,也就不会出现冲突和危机。而如果出现了冲突和危机,就意味着一般威慑已经失败,威慑将进入即时威慑阶段。在即时威慑阶段,威慑有明确的威慑对象,就是发起冲突的挑战国。即时威慑的目的是阻止挑战国发动进一步的挑战,阻止冲突进一步升级。可以看到,如果一般威慑取得成功,就不会出现危机,也就不会进入即时威慑阶段,因此一般威慑成功的案例在数据库和历史资料中都没有进行记载。换句话说,一般威慑成功的数据是不可见的,但这并不意味着威慑无效,恰恰是因为一般威慑成功了,所以才没有相关的数据。一般来说,只有那些决心坚定、在争议问题上利益重大的国家才会敢于真正发起挑战,从这个角度看,即时威慑阶段威慑方所面对的挑战方是经过筛选的。威胁可信性就像一个门槛,它会对危机情境下的挑战方进行筛选。威慑方的威胁可信性越高,对挑战方的筛选就越严格。最终,那些敢于向威慑方发起挑战的国家,都是决心非常坚定、在争议问题上利益非常重大的国家。正因如此,即时威慑取得成功的难度也就变得更大。但是,数据库和历史资料上记录的只能是已经发生了的危机,也就是即时威慑阶段的案例,而这部分案例只占整个威慑案例的一小部分。从这个例子就可以看出,如果忽略这种选择效应和威慑案例背后的数据生成机制,那么我们对于威慑生效机制的理解就会产生偏差。

这个例子也说明了理论对于实证研究的重要性。勒博等学者没有意识到一般威慑和即时威慑这两种类型在作用机理上存在着很大的区别,他们认为两者之间没有本质区别。但实际上,两者是完全不同的。


庞珣(北京大学国际关系学院教授):

选择效应的问题在经济制裁研究中同样存在。在意识到这个问题之后,学者们试图在原有的博弈模型基础上增加威胁的环节,这种操作不仅在理论上扩展了博弈模型,而且在数据生成过程中也产生了威胁数据。当意识到这种选择效应的重要性时,我们就需要采用其他方式去间接测量这个过程。在社会科学中,许多概念都无法直接测量,我们不得不进行间接测量。当人们说这个不可观察、那个不可测量的时候,大多数情况下其实是不知道应该观察什么、对什么是测量也有误解。对于数据生成过程的思考是理论过程而不是实证过程,这可能听上去比较奇怪。换个说法就是,关于数据生成过程不是分析我们观察到的数据,而是思考现象何以会重复产生的机制。


祁昊天(北京大学国际关系学院助理教授):

我认为在进行实证研究之前,需要有一个理论体系告诉我们如何提出正确的问题,以及研究这个问题需要获取哪些数据,在此基础上才能进入到实证研究中。现在的很多研究都是以发表为导向,将数据放在优先位置,这实际上是本末倒置。正如杨老师所言,选择效应和幸存者偏差的问题在很多研究中都是存在的。例如,在有关战争起源的研究中,一些研究者基于现有理论声称找到了广泛的战争案例并收集了所有主要相关因素数据,通过分析这些数据得出有关战争起源的一般性理论成果。但问题是,他们并没有关注到那些没有从危机发展为战争的案例。一些关于国际条约合规问题的研究同样存在选择效应的问题,条约合规有难度这一点并不能被可观察到的条约都基本不存在合规问题所否定,因为进入可被观察样本的那些案例中行为体已经做好了遵约合规的准备才会签署(即让条约存在)。总之,正如庞老师所言,当我们重视使用方法,但却不重视学习方法时,可能导致研究特别是研究设计中出现一些严重的逻辑疏漏。


卢晓(北京大学国际关系学院助理教授):

我想再补充祁老师提到的国际条约合规问题的一些案例。在最近关于欧盟成员国的遵约和违约行为的研究中,研究者发现,与成员国可能基于国家利益任意违背欧盟法律规范的现实主义预测不同,大多数欧盟成员国在大多数时间内都会遵守欧盟条约和法律规定,只有少数国家在少数时间才选择违反欧盟法规。然而,这个观察只是基于欧盟委员会侵权诉讼程序中所披露的数据,有许多违约案例由于委员会策略性的忽略并未直接反映在侵权诉讼程序中。这背后体现了委员会对欧盟条约声誉以及成员国政治和经济能力的一系列考量,以及成员国与欧盟间的复杂博弈。这也表明,数据生成的过程不是一个单方面的选择过程,而是在博弈互动中产生的。因此,如果我们只是用简单的选择模型来分析这些案例,就会产生实证分析的选择偏差。这对我们的研究结论可能会产生重大影响。


陈济冬(清华大学公共管理学院副教授):

从某种意义上看,我们进行(经验)实证研究就是进行反事实推断,这种反事实推断与博弈论中的思想实验的逻辑是完全一致的。关于使用方法和学习方法的问题,我与庞老师有同样的感受,一些研究者,包括我自己在刚开始使用的时候,知道如何使用具体的方法,但总是忽视方法成立的前提条件,这是我们在学习和使用研究方法过程中尤其需要注意的。例如,要研究某些国家中饮酒对健康的影响,如果这个国家有18岁以下禁止饮酒的规定,我们可能会想到用18岁以下和18岁以上的数据,利用断点回归的方法进行分析。但是这个方法无法排除其他因素对健康的影响。例如,18岁以上可能不仅可以喝酒,还可以吸烟,吸烟对健康的影响也需要考虑。这个问题是断点回归方法本身无法解决的。在使用定量方法方面,我们尤其需要关注这类方法的适用性问题。


庞珣(北京大学国际关系学院教授):

我想要补充一下,刚才提到的工具变量和断点回归更确切地说是研究设计、而不是具体的研究方法。


陈佳(上海交通大学国际与公共事务学院副教授):

选择效应的问题在国际关系研究中普遍存在,因为我们关心的许多国际关系现象都是由一系列过程所构成的,其中会出现很多中间层次的结果,这些中间层次结果会影响我们能够观察到的和无法观察到的结果。但与此同时,我认为国际关系学者也已经开始重视这个问题了,一个典型的例子是贝斯·西蒙斯关于国际货币基金组织成员国签署自由化协议的研究。不同学科的学者对于这个问题也有不同的思路。例如,应用计量学者可能会通过设计更好的模型来解决这个问题。而国际关系学者则可能采用另一种方法,直接将整个决策过程拟合成一个模型。


周建仁(清华大学国际关系研究院副研究员):

关于如何判断实证方法的好坏,我认为,能够可靠地验证核心理论观点,同时能够被复刻的方法就是好的,不管是定性的还是定量的。但从实际来看,定性方法更多依靠个人诠释,导致验证过程的主观可控性较高;相比之下,定量方法的主观可控性相对较低,因此可靠性和可信性相对较高。我们在评价理论时,往往更注重简单和简约;但涉及到研究方法的使用时,我认为我们可以尝试更精细和更复杂的方法,只要这些方法能够确保验证过程有更高的可靠性和可信度。当然,套用奥卡姆剃刀原则“如无必要,勿增实体”,选择判断方法时,也是“如无必要,勿增复杂性”,即不要为了复杂而复杂,而确实是为了服务可靠性验证的需要。


庞珣(北京大学国际关系学院教授):

我不认为研究方法的复杂性和研究结论的可靠性之间存在线性关系。国际高水平期刊通常只有在简单方法被证明无法满足理论和数据需要的时候,才会认可复杂的方法。评审人往往会对使用复杂方法持怀疑态度。一般来说,当我们的假设很强时,可以使用更简单的方法来研究;相反,当假设比较弱时,我们可能需要使用更复杂的方法来获得准确的结果。但是,弱假设的问题在于我们得到的结果可能不够清晰。

关于定量方法的趋势,国际学界目前主要集中在微观和宏观两种类型。微观的方法主要探究个体的行为,宏观的方法则是研究结构和行为之间的互动。在中观层面上,目前并没有很好的方法。而对于方法的选择主要取决于研究关怀,关怀理论的研究和关怀政策评估的研究所选用的方法是不同的。但是,目前国内一些实证研究并不是由特定的问题出发,而是追逐新的研究方法,而且通常方法也并不“新”、应用得也没什么新意。这给我一种想抓住时间窗口打信息差的不好观感,我公开私下都直言不讳我的反感。


周建仁(清华大学国际关系研究院副研究员):

案例研究的过程一目了然,而统计分析还存在统计结果的不确定性,在跑完统计程序之前,不会知道自身的理论假设会不会通过经验验证,其经验验证结果相对更加难被主观操纵,因此,定量方法更能满足研究验证过程所需的可靠性。


陈济冬(清华大学公共管理学院副教授):

关于定性研究和定量研究的可控性问题,我认为定量研究的“可控性”其实也不弱。很多参数形式的定量研究可能会涉及计量模型的设定,这种选择背后建立在研究者自己的理论假说之上,研究者相信自己的理论,那么就可以根据这个理论来进行模型的设定。最后的统计结果不显著,意味着计量模型的设定或者理论假说可能存在问题,需要修正。这个逻辑反映了定量研究的“可控性”。

现在有一些经验实证类的研究不一定直接回应经典理论,他们通过运用新的数据和新的分析方法来发现一些新的现象。这类研究还是有其独特的价值,因为这种研究能够帮助我们认识一些以前所不知道的“事实”。虽然我们可能仍然不知道这些现象背后的逻辑,但我认为识别这些新现象本身就具有重要的意义。并不是说不需要理论解释或者构建,这是需要整个学术共同体共同完成的任务,而不是某一个学者在一个具体的研究中必须完成的。即使这些研究本身并没有理论的构建,但如果能够发现一些新的现象,或许能有助于我们对一些经典理论进行再思考,因此我认为也是有价值的研究。


杨原(中国社会科学院世界经济与政治研究所研究员):

关于实证研究的类型,我认为我们可以根据研究目的进行分类,主要包括以下几种类型。第一种是发现型研究,即通过数据驱动的方式发现新的现象、规律或模式。这与自然科学中的实验物理学类似,像居里夫人等科学家的主要贡献就在于发现新物质。尽管这种研究可能缺乏完整的理论基础,但发现事实本身就具有重要的学术价值。第二种类型是解释型研究,也就是我们这次会议所倡导的研究类型。解释型研究通常是困惑驱动的,旨在解释现有理论解释不了的经验现象,具有因果关系的关切。第三种是挑战检验型研究,在这种类型的研究中,研究者没有自己的理论主张,而是知道学术界已经有各种关于某个具体问题的争论和假设,研究者利用高明的研究设计和高质量的数据来检验这些有争议的假设,从而得出支持或者反驳这些假设的结论。

除了这三种研究类型之外,由于计算社会科学的发展,现在可能还出现了第四种研究类型的研究,即预测性研究。这种类型的研究更多地依赖于数据、方法和模型的驱动,目的是预测未来的事实,而不是关注因果关系或者探索因果规律。这种类型的研究可能并不需要提出新的理论。

尽管现在探究因果关系的理论仍然占据着重要的地位,但是随着数据技术和人工智能的不断进步,有些学者开始持有一种比较极端的观点,认为探究因果关系的理论可能逐渐退出历史的舞台,就像曾经的神话和宗教一样。他们认为,未来社会科学研究的目的可能会从解释型研究转变为更加重视预测性的研究,以达到更加准确和精确的预测未来的目的。


庞珣(北京大学国际关系学院教授):

尽管实证研究存在不同的类型,但并不是所有研究都是学术研究,或者说研究的目的是追求学术。我也并不觉得“学术型”研究就一定最重要、最了不起,但是不同的类型就需要有不同的标准来判断,不能混在一起、或者用一个标准来比个高下、搞个鄙视链。预测型研究本质上是应用型研究,能够解决实际问题就好,比如说帮助我们真的预警了、避免了灾难、制订了更好的政策或策略。至于学术不学术,我看不重要,不用非要求人家学术、或者非要说成是学术。当然,预测研究如果贡献了新的方法或算法,能够被重复使用,那在方法领域中就是学术研究,但这个就不叫预测研究了,而是预测方法研究。

另外一种数据驱动型研究就是探索型研究,它也很有价值,如果能够发现稳定的相关关系、发现实证困惑进而推动理论思考,就不要用它是不是做了因果理论和因果识别来要求,也不用非说从数据挖掘里挖出了因果关系。无论我们如何处理和分析数据,都无法“观察”到其中的因果关系,相关性能观察,但因果无法观察,只能推论什么时候观察到的相关性可以等同于因果。但不是每个研究都要主张因果关系的,而且很多研究随随便便一张口因果就出来了,因果关系的思考和观察哪有这么容易?探索型研究本身就有价值,它可以让我们发现有趣而稳定的现象,这种稳定的现象值得我们进一步建立理论和进行解释。如果一种现象只出现过一次,我们也就没有必要去建立理论解释它。总之,区分不同类型的研究是非常必要的,但我们也要知道这些不同类型研究的价值所在,不要拿一把尺子来比长短、更不要非要把各种研究塞进一个框子里。

关于杨老师提到的挑战检验型研究,现在很多国际期刊对此有所区分,要求研究论文(research article)必须有理论贡献,研究笔记(research note)则不需要理论贡献。如果投稿文章的理论贡献不够,但实证做的很好、检验的问题也重要,常会被建议发表成研究笔记。国内期刊目前还对此没有明确的区分,我想是不是也可以借鉴国外的经验。


杨原(中国社会科学院世界经济与政治研究所研究员):

不同类型的研究都有价值,但我们需要提高评价标准,我认为发现型研究有其价值,但只有当你真正发现了之前没有意识到的现象,或者是通过新的方法和数据才能观察到的模式或规律时,这种研究才具有真正的价值。


庞珣(北京大学国际关系学院教授):

如果我们能够投入更多精力去提炼数据中的模式和规律,即使我们只是呈现出这样的发现,它的贡献可能也比反复检验一个人人都可以上去捶一拳的理论要大。


杨原(中国社会科学院世界经济与政治研究所研究员):

是的。中国国际关系学界在十几年前还没有充分理解综述型研究和创新型研究的区别和各自的学术价值,因此当时有些研究者为了突出创新,会有意无意地将综述型研究“伪装”成创新型研究。而现在,这两种类型的研究各自的价值已经越来越被学界所认识到,并以不同的标准进行评价,“伪装”成创新型研究的综述型研究也越来越少。类似地,我们也应当进一步明确不同类型的创新型研究的区别,以不同的标准对其进行评价。例如,如果你的研究并不是为了创造新的理论,而是基于数据驱动的发现型研究,那么虽然你没有提出新理论,但你提供的研究发现是非常重要、新颖且有说服力的,那么你的研究同样是有贡献的,学界也应该鼓励这种类型的研究。


漆海霞(清华大学国际关系学系副教授):

我认为大数据在国际关系领域的影响力在最近两年内还没有表现得非常明显,技术发展对公共管理学科的冲击可能更加明显,因为公共管理涉及到政策制定等内容,对微观数据需求量大,大数据可以解决这一问题。而国际关系学更重视理论研究,受到的来自于大数据的挑战相对较小。但随着可获取的数据越来越多,以及AI模型越来越精细,这种技术发展未来会不会对我们目前认知的“好”的研究形成挑战?当我们的研究结论与AI的发现不一样时,我们如何判断结论的正确性?这是我们需要关注的问题。


祁昊天(北京大学国际关系学院助理教授):

大语言模型对国际关系研究的影响也许存在两个节点。第一个是对英文世界产生的冲击何时来到中文世界,现在初见苗头。第二个是法学领域所面临的冲击何时发生质变。类似法学这样基于文本和文本背后逻辑的学科,可能在大语言模型的影响下会首当其冲出现改变,中文世界中数据的“污染”问题更加严重但也开始得到解决。严谨、成熟和逻辑连贯性在大语言模型的迭代演化中正在非线性地成长,中文世界和国际关系语境下“一本正经说瞎话”以及数据不可靠的问题都会逐渐被解决。

因此,从技术层面上看,我们虽然暂时不需要过于担心大语言模型的挑战,但在原理和应用层面上,我们需要重新思考如何处理实证研究、如何对学术研究做出标准分类等问题。社会现象本质上是涌现现象,西方学界在几十年前开始用这个观点来研究社会问题,但当时的工具和数据并不成熟,而现在的技术比过去更成熟,未来也可能会更进一步,我们现在有能力看到以前看不到的问题,对于一些复杂系统中的涌现现象,我们很难用熟悉的牛顿力学还原论的视角去理解和解释它,线性思维和推导会变得更加困难,不确定性也变得更大。因此,在某些类似的情况下,我们过去所熟悉的理论性和原理性解释是否可能变得不那么重要,而更加侧重预测和结果?这是否会成为一种趋势,也许值得关注。


卢晓(北京大学国际关系学院助理教授)

关于人工智能对于学科冲击的问题,我认为人工智能存在缺乏透明度和可归责性(Accountability)的问题。在学术研究中,透明度至关重要。严肃的学术研究必须清楚地了解数据的来源和生成机制。但从目前的情况看,人工智能似乎并不会明确阐明数据来源,它更多的是直接给使用者以计算结果。这带来了一个问题,就是当人工智能提供的答案非常复杂时,学者该如何确定所提供的数据是正确的、真实的,而不是经由人工智能伪造的。从现实使用情况来看,人工智能的确会提供一些不真实、不准确、甚至捏造的信息,表明人工智能的数据生成机制存在复杂性和不可控性。一旦误用这些错误信息和数据,这可能给学术研究带来负面影响,而人工智能往往并不会承担这部分责任。这要求学者们更好地掌控数据的来源和生产机制,也表明如果任由人工智能自由发展而不对其可信度做出要求,它将无法取代学术研究,因为我们目前依然无法完全信任它。


庞珣(北京大学国际关系学院教授):

我认为人类的知识大多是主体间的,如果人工智能主导了知识的生产和应用过程,我们就会形成一个基于人工智能的知识共同体。人们将根据人工智能提供的信息进行行为、实践和讨论,人工智能就会越来越“对”、越来越容易“对”。


祁昊天(北京大学国际关系学院助理教授)

这里也存在不同领域之间的差别问题,如果是在生活中,人工智能通过不断的优化和推荐来影响我的行为和偏好,这个还可以接受。但是在军事和战略领域的应用,可解释性便是一个非常大的问题。当你将人工智能用于辅助决策时,决策者是否按照智能辅助决策系统的建议进行决策是个很大的难题。


庞珣(北京大学国际关系学院教授):

这里存在的问题是,如果我在使用人工智能辅助决策,而我的对手也在使用人工智能辅助决策。这个时候,你可能会考虑,如果我的对手听从了人工智能的建议,那么我也应该听从。这种情况下,你面对的不仅仅是一个人,还有人工智能作为重要角色参与其中。


杨原(中国社会科学院世界经济与政治研究所研究员):

我们之前对博弈论有一个很大的批评,认为决策者不可能像数学家和博弈论学家那样具备强大的信息处理能力和计算能力,因此决策的过程不会符合博弈论得出的均衡结果。但有了人工智能后,决策者只需要输入信息,然后利用人工智能进行计算,就会出现一个均衡结果。这个时候,实际上博弈论的作用被放大了,或者说博弈论的作用被凸显出来了。双方可能都依赖于一个强大的能够进行博弈计算的人工智能。因此,双方的决策可能会更趋向于完全理性假定下的博弈均衡结果。


祁昊天(北京大学国际关系学院助理教授):

我认为这里有两个问题。第一个问题是,尽管人工智能能够提供建议,但如果最终的决策仍然是人做出的,机器和人如何在决策中融合仍然是一个问题。这既涉及到人与机器之间的信任问题,也涉及人的非理性和情绪因素。第二个问题是,机器的决策是否真的与人不同?这是一个需要探讨的问题,机器是人训练的,数据是人提供的,当前和未来机器也会自己训练自己,自己创造素材,人和机之间的本体论界线在哪里恐怕将会是长期问题。

如果我们给自己留有余地,将最重要的决策环节留给自己,最终的决策权留在人的手中,这种环节的设计可以决定人工智能的辅助是否有效。


陈济冬(清华大学公共管理学院副教授):

我感觉ChatGPT很多功能中可能至少有两方面跟咱们日常的生活工作相关。一方面,它的算法和算力更强,它的搜索功能更强,但搜索到的信息和知识可能并不一定可靠,因为它的信息都来源于网络。所以,它的搜索功能对于我们当前的研究可能没有那么大的用处,或者只是具有参考和借鉴的意义。另一方面,它在文本分析和处理方面的功能非常强大,可以帮助我们进行文字表述的优化,同时它背后的算法在其他方面的应用也有助于我们更好的进行文本数据的分析。


漆海霞(清华大学国际关系学系副教授):

当学者进行实证研究时,其结论可能会影响决策者。如果决策者听从了学者的建议并按照其理论进行学习和推理,那么他的决策可能会跳出我们的理论。这是社会科学与自然科学的不同之处,物理学讨论的是物,通常不会被直接应用到与人的主观认知相关的现实社会中,而在国际关系领域中,我们的研究结果可能被用于实际决策,而决策者会选择规避糟糕的结果。在这种情况下,社会科学的研究难度就大大加深了。

由此延伸的问题是,我们在社会科学中是否可能发现一种纯粹客观的真理?我们发现的任何真理都有可能被人解读。然而,我们所学的所有实证内容都是从自然科学中学习的,而自然科学的客观性本身很难应用于社会科学,因为社会科学带有主观性。所以我认为,社会科学的实证目前很难达到自然科学实证的程度。


陈济冬(清华大学公共管理学院副教授):

对国家或个人行为的研究,其研究结论可能会被相关研究受众了解学习,从而影响他们的预期和行为,我认为这种情况是可能的。这种想法有些类似于经济学里讲的“卢卡斯批判”。社会科学相对于物理学来说更加复杂,因为研究对象具有主观意识,研究可能直接影响研究对象的预期行为,最终导致预测所得出的结论与实际行为不一致。这可能是社会科学相比于自然科学比较独特的地方。


庞珣(北京大学国际关系学院教授):

我认为实证研究和理论研究不会直接影响研究对象。我们不能高估国际关系学术研究对世界的真实影响力。相反,我认为更通俗易懂、更具有煽动性、更少顾及前提条件和结论不确定性的思想和言论具有大得多的现实影响力。比如一些说话不那么负责任的公共知识分子比更为谨言慎行的公共知识分子更能够影响社会。因此,对研究对象的影响程度取决于唤起情感而不是考验智力。学术研究里充满了抽象而艰涩的术语、不厌其烦的推理、带着限定条件的论点、有着置信区间的结果、冗长的稳健性检验,这些学术中必要而重要的规范同时也让学术很难直接影响实际决策者或者公众。当然,科学不是自娱自乐,社会科学和自然科学中都建立在“干预”的思想上,具有改变世界的雄心。就社会科学而言,通常起到改变世界作用的是思想而不是我们现在讨论的研究。


周建仁(清华大学国际关系研究院副研究员):

我认为人的主观能动性和学习能力会帮助改变社会事实,人可以通过学习理论运用理论来改变自身行为进而改变社会事实。但社会事实的变化并不会带来规律的变化,人的行为变化不代表基于理论所做出的预测会变得不能成立。只要理论所解释的社会规律没有改变,那么理论预测仍然成立。

举个例子,权力转移理论认为,如果崛起国武力挑战霸权国,那么就会发生争霸战争。当决策者学习了这个理论之后,他们可以通过改变策略来避免争霸战争的发生,从而导致社会事实发生变化,即争霸战争越来越少甚至于消失了,而这恰恰证明了权力转移理论的预测是正确的。总之,人的学习能力可能会改变社会事实,但不会改变历史规律。


杨原(中国社会科学院世界经济与政治研究所研究员):

刚才讨论的问题涉及到社会科学中的“自我实现的预言”和“自我证否的预言”,其中原因在于社会科学研究对象具有主观能动性,他们会根据你的理论研究做出相应的行为反应,从而导致预测失准。这也正是社会科学相对于自然科学面临的困难。

但是,如果回到我们今天讨论的博弈论这个主题,我想我们仍然可以对社会科学预测保有一定的信心。也就是说,尽管研究对象具有主观能动性,但我们借助博弈论这种工具,仍然有可能在一定程度上预测社会结果或个体行为。因为博弈论就是分析在双方都知道对方具有主观能动性、对方会根据具体情境和信息做出自主反应的情况下,双方的互动最终会达成什么样的均衡状态。在我看来,博弈论是直面人的主观能动性的一种研究工具,博弈论假定每个人都是理性的,可以预测对方的行为,并计算出对自己最有利的选项,从而得出在这种互动状态下会产生的均衡结果。在一定程度上,博弈论可以帮助克服人的主观能动性所带来的扰动,提供一种预测社会结果的途径。


陈济冬(清华大学公共管理学院副教授):

在社会科学领域,我们更多地将博弈论视为一个工具,用来讲述我们的故事。刚才提到预测问题,我认为存在两种不同类型的预测,第一种是预测一个具体的数值,第二种则是通过一种理论预测行为模式。后者更接近人类智慧,前者则更像机器生成的预测。周老师刚才所指的更像是第二种预测,这种预测本身就是一种有条件的陈述,因此更不容易受到人类行为的改变。这可能也部分回应了人类与人工智能的区别。


祁昊天(北京大学国际关系学院助理教授):

我认为博弈论主要是在刻画人类的行为规律,它会限制你的行动,即使你有倾向其他行动的冲动,你也必须遵守这个规则。当我们有一套工具用来理解规则时,即使我们依靠主观能动性掌握了这套规则体系,它对我们的行为仍然有一定约束作用,但这种作用可能会取决于领域的重要性以及颗粒度。

我们对自然科学有一种羡慕和崇拜,但由于我们作为人类不得不以不同的方式观察自然科学问题和社会科学问题,因此导致社会科学研究相比自然科学研究缺乏客观性。在自然科学领域中,牛顿力学已经能够相对精确地进行预测,但是相对论被提出后,人们发现牛顿力学只是相对论在特定尺度下的一个近似。当人们认为以牛顿力学和相对论为核心的经典物理已经非常接近发现世界的真相时,量子论的出现又改变了人们的看法,人们发现经典物理只是量子论在宏观尺度下的一个近似。这是颗粒度差异的影响。在社会科学领域同样如此,如果几百年后的人类再来看我们当下的理论,也许会发现这些理论在某些颗粒度上可以进行准确的预测,但在其他颗粒度上却并不如此。


漆海霞(清华大学国际关系学系副教授):

我们认识到技术的升级和更新将使人类未来具备更多能力和更全面的信息,能够做出更好的决策。然而,这些技术也会使模型和理论的构建更加困难。这就要求我们重新审视实证方法,我们将在下一轮中讨论。




04 第三部分会议纪要

3、实证博弈分析:理论与实证的共

主持人:庞珣(北京大学国际关系学院教授)

庞珣(北京大学国际关系学院教授):

第三节的主题是实证博弈分析,重点讨论EITMEmpirical Implications of Theoretical Models)。EITM 的初衷是要更紧密地连接理论和实证。传统上,我们的实证研究是先介绍因果故事(理论的一种通俗说法),然后从中推出几个可验证的假设,并建立模型、使用数据,得出结论。理论和实证之间其实经常存在或多或少的脱节。EITM 就是通过形式建模的方式将理论机制转化为可验证的假设。这种思想被广泛认可,但在实际操作中难度较大,因为要求研究者同时进行博弈建模和统计建模。此外,在评审过程中,研究者可能会同时面临理论和模型方面的批评。然而,我认为至少EITM的思想和它所代表的路径值得我们进一步推动和探索。有没有可能通过同时降低理论和模型上的门槛来进行普及?这并不是为了向现实妥协,而是需要寻找更好的解决方案,为着推进研究的目的使其更容易掌握和理解。

本节会议的核心目的是讨论如何将理论和实证更加紧密地结合起来。现在我们观察到理论和现实脱节的现象并不少见,有的是先有实证结果后量身做了一件理论的外衣,这个其实一眼就能看出来;还有的是理论说的一个东西,实证干的另一个东西,两者有关联、但很不服贴。本节讨论有七个问题。第一个问题是关于如何定义实证和理论的脱节,也就是在什么时候我们认为实证和理论是脱节的。第二个问题是关于实证和理论的脱节对双方发展的影响。如果没有理论的限制,实证过程可能会只追求时髦的技术。而如果没有实证的检验,理论研究也就是空中楼阁。

第三个问题是“方法祛魅”。这个我是很主张的。过于强调方法的“魅力”可能导致学者失去对研究本身的掌控,这对方法和理论都不好。在很多时候,魅力建立在我们不了解的基础上的,方法祛魅并不意味着我们不再追求方法,而是意味着我们需要更多地了解它,尤其是了解它的局限性。

第四个问题是实证投射。理论本质上是一种抽象的东西,我们经常批评理论说它无法很好地描述现实。理论本身并不需要很好地描述现实,但需要在实证世界中有投影。这种投影是我们可以观察到的,它告诉我们这个理论是存在的,而不是空穴来风。如果一个理论无法在现实中找到投射,那么我们就无法确定它是否是一个幻觉。因此,我们在实证研究中需要努力寻找这些投射,并将它们识别为该理论的投射。这样做可以帮助我们确定理论的真实性。

第五个问题是EITM。我相信在座的老师都有一些研究中的经验和教训可以分享。在分享的过程中,我们也可以一起探讨如何进行改进和提高。这并不仅仅是指我们需要完善我们的研究方法,而是指我们需要更好地传达自己的研究成果的价值。

第六个问题是实证博弈分析。我们是否可以在EITM的基础上构建一种实证博弈分析的路径,使其更具实用性和易于掌握,同时保持理论和实证之间的紧密联系。

第七个问题对在座的两位期刊主编特别重要。作为学者,我们可以选择采取宽容或不宽容的态度。但最终的结果取决于期刊和评审人的态度。现在有一种趋势,即人们更愿意进行非常保守的研究,不愿意去做大的创新研究。创新通常不是一蹴而就的,它是一个新生事物的成长过程。我们需要如何选择、容忍和挑选研究?

陈济冬(清华大学公共管理学院副教授):
我在学生时代参加过关于EITM的培训课程,我发现每位老师对EITM的解读都不同,他们对EITM有不同的理解。其中有一位老师的话让我印象深刻。他说,我们主办此次培训并不是希望你们写的每篇论文都同时具备完美的模型和精细的实证,你们可以进行纯粹的实证研究,但在这样的研究中,你需要考虑理论因素,需要有理论的视角。如果你不进行实证研究,而是通过博弈模型进行理论构建,你也需要有现实关怀。我认为,我们整个学术共同体既需要进行理论探索和创新,也需要推进扎实的经验实证研究,但这些工作并不需要在每篇文章同时进行。因为术业有专攻,每个人的时间也是有限的。我们在自己的特定领域内,做好自己的专长,这已经算是非常不错。同时我们也要认识到,在进行实证研究时,我们需要考虑理论和现实的对应问题。

杨原(中国社会科学院世界经济与政治研究所研究员):
关于为何只强调实证投影而非完全检验对于理论发展更有意义这个问题,我认为可能有以下三方面的原因。第一,如果理论可以在一定程度上被实证验证,但又无法完全被实证检验,这意味着理论不能被还原为对经验数据特征的简单归纳和概括,这凸显了理论的创造性和智识性,也意味着理论创造不仅仅是体力劳动,而是需要人类的智慧和创造性。我认为这是人类面对人工智能的挑战时,能够保护我们人类尊严的最后一道防线。
第二,这意味着理论至少有一部分内容还没有被实证检验,这反映了理论思想具有超前性,超越了我们现有的经验材料和技术方法。理论尚未被实证检验的部分越多,提示理论可能的创新程度越高,是一种颠覆性、革命性的理论创新的可能性越高。例如爱因斯坦的相对论在1916年就预测了引力波的存在,但直到100年后的2017年,引力波才被直接探测到。这就是爱因斯坦理论革命性的一个体现。作为科学家,我们当然希望有更多创新程度高的理论。理论中暂时难以被实证检验的内容的多少可能是评估一个理论创新程度的重要参数。当然这并不意味着,一个理论中暂时不能被实证检验的内容越多,该理论就一定具有创新性。这只是必要条件而非充分条件。
第三,如果一个理论有一部分内容暂时无法被实证检验,同时另外的内容又能够通过实证检验,这样的理论更有可能吸引更多的人去进一步研究该理论及其相关问题,从而更有可能开辟一个新的研究历程,形成一个理论派系或群体,有利于知识的积累和研究的聚焦。简单来说,如果一个理论得到了部分验证,但还有很多内容暂时难以验证,它就会像一个已经发现有宝藏但还未被完全开采的山洞,这样的理论对探险者来说最具吸引力。

陈佳(上海交通大学国际与公共事务学院副教授):

 我对实证与理论之间的关系也有一些困惑。在学界中,即便都是博弈论学者,对于这个问题的答案也可能并不一致。有学者认为,实证研究只是为了展示理论而不是检验理论,实证材料只是为了让人们更好地理解理论。其他学者则提出了不同的观点,认为这种实证材料只是循环论证的包装,本质上不能称为实证研究。因此,实证研究对于理论研究究竟有什么意义,这个问题仍然值得我们思考。

同时还存在另一个问题。许多学科在理论和实证上有明确的分工,比如经济学、管理学和物理学等,这些学科中的理论研究和实证研究并不需要在同一篇文章中呈现,不同方向的学者只需要专注于自己的领域。例如爱因斯坦的理论直到几十年后才被检验。有学者认为,理论研究与实证研究的结合还可能产生道德风险的问题,因为构建理论的人显然不会证否自己的理论,证明理论的步骤应该由其他人来承担,这样才能确保理论的中立性,以及在现实中的有效性程度。但在国际关系领域,现在的期刊越来越不接受纯粹的理论文章或实证文章,这也意味着在我们这个领域,分工的可能性正在变得越来越小。

我们学科所认可的研究要求必须证明、验证和测试理论,并且必须以非常高的标准来做到这一点,而不仅仅是检查理论内部逻辑是否自洽、演绎是否有效。这也许是因为国际关系学或政治学中的理论不够抽象,导致我们只承认与经验事实相结合的理论。当然,这也可能与我们学科研究对象的多样性相关,在模型设计的过程中,我们出于对现实多样性的考察而不得不做很多让模型更符合现实的工作,这可能削弱了理论性,从而使人们怀疑理论本身的价值。

周建仁(清华大学国际关系研究院副研究员):

上述讨论可能涉及到我们如何判断知识的可靠性,而关于什么样的知识是可靠知识实际上涉及到科学哲学中的认识论问题。对于我个人而言,我认为可靠的知识必须接受逻辑和事实的双重检验。也就是说,在理论逻辑上能够自洽,同时又能得到经验事实的支持。例如,我们可以通过博弈模型检验理论假设推演过程是否正确,同时以观察到的经验数据寻求事实的支撑。但这并不意味着这两项工作一定要由一个人完成。一些人偏向于研究理论,他们会专注理论性问题,但在方法上可能会有所不足,而专注于方法的人可能不得不至少部分放弃抽象的理论思考。

关于EITM,我认为它的逻辑符合我对可靠知识的理解,因此我特别支持。但这种方式要求学者既具有强大的博弈建模能力,又具有很强的经验数据建模能力,在现实中这样的人才可能很难找到。因此,我认为EITM可以通过团队合作来推进。

关于使用博弈论过程中出现的问题,我认为目前存在三个问题。第一是对博弈模型的使用不符合数理模型解释社会现象的逻辑,例如一些人一开始即说自己要用囚徒困境模型来解释某些社会现象,但博弈论的逻辑是将现实问题转化为数理模型,我们只有在最后才知道建立的模型是什么样的,而不是提前预设一个模型。第二是认为通过博弈模型推导出的结果本身就是证据。实际上,博弈模型只是建构理论的一种工具,而不是经验证据。第三是为了匹配自己的统计结果而截取博弈过程的一部分进行建模,导致展示不完整的博弈过程带来的偏差。例如在一篇解释欧盟引入欧盟决策程序对欧盟一体化影响的文章中,作者提供的经验证据证明欧盟决策程序阻碍了一体化进程。然而,现实情况是欧盟一直在推动这个程序。这种情况相互矛盾。而作者为了迎合自己的统计分析结果,只针对欧盟决策程序中的部分过程构建博弈模型,这显然是有问题的。这些是我在国际关系领域中看到的误用博弈论的情况。


卢晓(北京大学国际关系学院助理教授):

模过程是对现实的简化。如果完全复刻某一现实,那么理论模型在其他情况下的适用性和可用性就会大打折扣。

我非常赞同杨老师提出的“科学探险”的观点,EITM的整体发展就是一个探险过程,背后反映的是科学探索的不确定性以及曲折发展的过程。EITM这个概念逐渐被学术界所广泛了解,这已经是一个了不起的成就。实际上,我们很少看到一些专业词汇在全球范围内会受到如此广泛的关注。总体而言,如果将EITM看做一个学科建设的过程,我们可以认为它已经取得了长足的进步。但与此同时,这个过程也并非一帆风顺,涉及到学者在发表过程中遇到的一些困境,以及学术合作中如何分工等问题。

另一个问题是博弈论如何与实证研究更好地结合起来。在学术研究中一个普遍做法是通过博弈论来推导出理论涵义,在此基础上形成研究假设,然后用各种不同的方法进行实证检验。但其中存在的一个问题是,博弈模型和实证检验往往相互脱节,复杂的博弈模型和简单的实证检验看起来并不相契合。所以许多学者提出,应当基于博弈模型建构新的更加契合博弈过程的统计模型,对博弈各个阶段进行直接建模。但这些工作的技术难度很大,需要控制博弈过程的信息环境和博弈行为体间的互动形态。对此,我们更需要鼓励团队合作,将不同领域具有不同专长的学者聚集在一起,共同研究相关问题,推动科学问题的解决和学科的长足发展。


漆海霞(清华大学国际关系学系副教授):

我赞同卢老师的观点。博弈本质上是一种互动,而统计则聚焦于因变量,因变量通常出现在最后一步,因此中间的许多选择在统计模型中难以体现,这可能就会导致选择效应。当然,统计学中也有许多处理选择效应的方法,但有时简单的统计模型并不能完全匹配复杂的多轮互动过程。因此,就我的观察,在使用博弈论的研究中,案例是比较常用的方法,通过描述案例的具体环节来衔接理论与经验。但这里又存在案例选择的问题,研究中往往选择那些适合自己博弈模型的案例,从而导致产生偏向性解释。我认为这就是理论模型和现实结合的难点,它们单独存在都可能具有说服力,但将它们结合起来却可能出现问题。


庞珣(北京大学国际关系学院教授):

我最近的一项研究就面临博弈与统计结合的困境。我在文章中建立了一个博弈模型,并在此基础上创建一个新的统计模型。但在评审阶段,评审人要么偏重统计方法来评价文章,认为这个统计量也太复杂了吧;要么偏重博弈论来评价,觉得这个博弈太过简化了。两边都很不讨好。这里的困境就是,EITM要把博弈模型和统计模型完美结合的话,就双方都得做妥协才能走到一起。尤其是博弈的部分做得再稍微复杂一点,统计建模的复杂程度就会呈指数增长。这也就涉及什么是可以容忍的创新这个问题,评审人认为我们的研究非常创新,但同时也觉得不太稳妥:统计模型太复杂需要更多的实证应用来观察有没有这个必要,而简化的理论让每一个读者都能很聪明地说“应该再考虑XX因素”。感觉这个东西很少人能做得了,但每个人都能挑一大堆问题。

刚才陈佳老师提到,在其他学科中,学者们会进行分工,有些人负责理论研究,有些人负责实证研究。在国际关系领域为什么没有出现这种分工,我认为和周老师刚才提到的可靠知识相关。所有的理论都需要经过两个考验,一是逻辑证明,二是实证证伪。如果不能从逻辑上进行证明,那么就只是猜想。有一种流行的说法,说是理论的证明就是保证逻辑自洽。自然科学需要使用严格的数理逻辑来保证你说的逻辑自洽是真自洽了,国际关系学没有正式的数理证明,怎么样算自洽?自己说得振振有词、听的人频频点头,就算逻辑自洽吗?大家抱着脑袋想一想,没有反对意见,这就算逻辑自洽吗?所以说,如果逻辑证明这个工作不是规范性的、透明的、可复刻的,从事理论研究就难以成为一个专门的领域。当然,这么说的前提是严格区分理论和思想。我更愿意把国际关系中绝大部分的抽象思考称为思想而不是理论。

外,没有出现领域分工还有一个原因。比如与经济学相比吧,我们学科往往不太接受那种只做实证的研究。政治学要求学术研究既要有理论贡献,又要有实证检验,这个要求确实高。当然,政治学作为一门学科在国际上的学术地位也相对较高,两者之间可能存在关系。


陈济冬(清华大学公共管理学院副教授):

我之前有个类似于EITM范式的研究也面临同样的问题。我在文章中构建了一个博弈模型,随后用简单的回归分析进行检验。但得到的评审意见都很负面,认为文章的博弈和实证都没做好。我在反思的过程中发现,也许我在一个部分中补充一些亮点,得到的结果可能更好。我们可能还是需要更多的学术合作。如果我们要做一个结合博弈模型和实证经验的研究,可能需要多个人进行合作。另外一个问题是,现在的期刊审稿人对于检验博弈模型的要求越来越高,希望看到研究中检验模型中的各种特性。这确实带来了很大的挑战。这也意味着我们在实证部分需要做大量的工作,使用各种方法从不同角度进行验证,这样才能增加说服力。简而言之,结合博弈模型和实证经验所需要的工作量是巨大的。

祁昊天(北京大学国际关系学院助理教授):

研究对我个人的研究领域而言,不仅仅是用数据或案例来支撑和检验某个观点,而是下沉到具体领域的基本逻辑进行剖析和检验。军事研究领域需要进行一些技术层面的还原和一些对抗场景下的还原,这些东西在案例中进行讨论会更合适,至少会让我感到舒适。关于博弈与实证的结合,我相信大家都希望能够将其有效结合起来,但这种平衡点有时确实不好把握,尤其是考虑到不同领域之间的差异性。如果国际关系学科能够在论文发表和科学研究的评判标准方面更加接受差异性,将会有很大的帮助。


杨原(中国社会科学院世界经济与政治研究所研究员):

关于EITM为什么在国际关系学科中很难操作,我认为学术评价体系是一个重要原因。国际关系学无论是中文论文还是英文论文,论文的作者通常会是一个或两个人,相比之下,经济学往往有多个作者署名。多个作者参与可以各司其职,有的人负责理论模型,有的人则负责实证部分,这样可以发挥不同学者的比较优势。国际关系学论文作者数量较少可能与学术评价体系相关,这是一个社会层面的原因。只有打破这种评价体系,学者们才会放心专攻某个具体领域并与其他学者合作,也才能推进实践EITM路径。


庞珣(北京大学国际关系学院教授):

我赞同几位老师的观点,EITM更适合团队合作,也有利于克服理论和实证之间的脱节。当然,合作并不意味着我们完全不去学习其他的领域,而是由更擅长或者更有意愿的人去承担某个部分的工作。



编辑 | 赵金钰




全球风险分析Lab
推进协作性、前沿性研究,应对全球化、政治化风险
 最新文章