编者荐语:这是一篇内容翔实的文献综述,全面探讨了计算社会科学这一蓬勃发展的领域,展示了其在社会学、文化研究、经济学等多个学科中的广泛应用。通过对大数据、机器学习等技术在人口学、社交网络、文化生产等方面的深度分析,文章揭示了计算方法如何与传统社会科学研究相结合,推动理论与实践的创新。这篇文章内容视野广阔,清晰展示了数字时代下社会科学的前沿研究方向,对于关注新兴技术在社会科学中应用的读者来说,这是一篇具有重要参考价值的读物。
点击标题下方蓝字 关注+星标 “Political理论志”
不错过社会科学前沿精彩信息哦
具体操作如右 →
计算社会科学与社会学
摘要:
社会科学与计算机科学及工程领域的结合催生了一个全新的研究领域:计算社会科学。该领域运用计算方法处理如社交媒体、行政记录、历史档案等数字数据的新来源,以探索和发展人类行为理论。本文通过文献计量分析,回顾了这一领域在社会学中的发展历程,并深入分析了以下几个进展尤为迅速的子领域:(a)社会网络分析与群体形成;(b)集体行为与政治社会学;(c)知识社会学;(d)文化社会学、社会心理学与情感研究;(e)文化生产;(f)经济社会学与组织研究;(g)人口学与人口研究。我们的综述表明,社会学家不仅站在解决长期以来人类行为相关问题的前沿,还在数字空间的研究中开辟了新的方向。最后,我们探讨了该领域面临的一些新挑战,呼吁更加关注社会学理论,并指出计算社会科学在进一步融入主流社会学时可能具有的研究潜力。
作者简介:
Achim Edelmann, University of Bern
Tom Wolff, Duke University
Danielle Montagne, Duke University
Christopher A. Bail, Duke University
文献来源:
Edelmann, A., Wolff, T., Montagne, D., & Bail, C. A. (2020). Computational social science and sociology. Annual review of sociology, 46(1), 61-81.
本文作者:Achim Edelmann, Tom Wolff, Danielle Montagne, Christopher A. Bail
一. 引言
随着互联网的普及,以及行政记录和历史档案的大规模数字化,近年来涌现出前所未有的大量数字数据。与传统社会科学家收集的数据不同,这些新型数字数据往往能够详细记录大量人群中社会关系的发展变化(Bail 2014, Golder & Macy 2011, Lazer et al. 2009, Salganik 2018)。与此同时,许多新的技术手段也已被引入,用来分析这些复杂且庞大的数据集。这些技术包括各种自动文本分析、在线实验、大规模协作以及受机器学习启发的其他方法(Evans & Aceves 2016, Molina & Garip 2019, Nelson 2017, Salganik 2018)。数字数据的激增以及对其进行分析的新方法的出现,催生了一个新的跨学科领域:计算社会科学。
“计算社会科学”这一术语最早出现在20世纪后期,既涉及社会科学学科,也涵盖了科学、技术、工程与数学(STEM)领域。在社会科学中,这一术语最初用于描述基于代理建模的研究方法,即通过计算机程序模拟虚拟人群中的人类行为(Bruch & Atwell 2015, Macy & Willer 2002)。这一领域的研究在社会心理学、网络分析等方面取得了重要的理论进展(例如,Baldassarri & Bearman 2007, Centola & Macy 2007, Watts 1999)。而在STEM领域,任何使用大规模数据研究人类行为的工作都常被称为计算社会科学(例如,Helbing et al. 2000, Pentland 2015)。虽然许多此类研究运用了物理学和数学的精巧理论来分析集体行为,但这些研究与社会科学理论的联系相对较弱(见 McFarland et al. 2015),尽管早期曾有尝试将二者结合(例如,Carley 1991, Macy & Willer 2002)。
鉴于该领域的多元学科起源(Lazer et al. 2009),本文为该综述提供了如下定义:计算社会科学是一个跨学科领域,通过将计算技术应用于来自社交媒体、互联网或其他数字化档案(如行政记录)的庞大数据集,来推动人类行为理论的发展。我们的定义强调了社会学理论,因为我们认为该领域在社会学中的未来不仅依赖于新数据来源和分析方法,还在于其是否能够产生新的关于人类行为的理论,或是对现有的社会现象作出进一步解释。尽管我们赞同近期一些倡导面向实践、旨在预测人类行为的解决方案导向社会科学的呼声(Macy 2016, Watts 2017),但我们只关注那些旨在通过解释人类行为来推动社会科学理论发展的研究。然而,读者需注意,我们的观点并不代表所有计算社会科学家,特别是非社会学领域研究者的共识。鉴于该领域跨学科的快速增长,形成共识或许并不现实。
我们此次综述的另一显著特点是重点探讨了计算社会科学在社会学这一学科中的演变。由于篇幅限制,我们无法全面覆盖计算社会科学在政治学、经济学等其他社会科学学科中的进展,尽管这些领域也可能对社会学家有所启发。虽然之前的综述主要考察了计算社会科学领域中新数据源或分析方法的增长(Bail 2014, Evans & Aceves 2016, Golder & Macy 2014, Molina & Garip 2019),但我们的目标是描绘这些工具在社会学研究中的实际应用。通过结合文献计量方法和个别研究的深入分析,我们综述了计算社会科学如何在社会学中解决长期存在的人类行为问题,同时也关注了随着数字数据融入我们生活而涌现的新问题。
我们的主要结论是,计算社会科学正在迅速扩展到社会学的多个子领域中。本文的重点是七个实质性研究领域,这些领域中至少已发表了五篇符合我们对计算社会科学定义的文章,具体包括:(a)社会网络与群体形成;(b)集体行为与政治社会学;(c)知识社会学;(d)文化社会学、社会心理学与情感研究;(e)文化生产;(f)经济社会学与组织研究;(g)人口学与人口研究。这些研究不仅在旗舰期刊上发表,还在重要学术会议上引发广泛讨论,并帮助传播了社会学的公共价值。尽管如此,我们的综述也发现了一些新挑战,包括伦理问题以及数字空间中数据生产日益不透明等。最后,我们指出了未来研究中有前景的方向,呼吁更加深入地将社会学理论融入计算社会科学,并倡导与其他社会科学学科更紧密的合作,以推动计算社会科学融入主流社会学研究。
二. 划定领域
近年来,学术档案的数字化发展迅速,加之自动文本分析技术的进步,促使我们使用计算社会科学的工具来绘制这一领域的现状。我们的分析是多维度的,结合了来自大型文献计量数据库、热门学术会议的数据以及多轮人工编码,旨在确定所有符合我们定义的计算社会科学的社会学研究文章。
首先,我们查询了目前可用的最大学术出版物数据库“Web of Science”。遗憾的是,这一资源并未涵盖大多数书籍,也未收录所有期刊——特别是会议论文集,而这些论文集中包含了相当多的计算社会科学研究。然而,尽管存在这些局限,该数据库仍然是现阶段最具代表性的起点。我们的采样策略是首先搜索在文章标题、摘要或关键词中提到“计算社会科学”或“大数据”这两个术语的所有文章(后者是该领域早期使用的术语)。由于计算社会科学的研究成果通常发表在跨学科期刊中,而这些期刊未必会被标记为社会科学类期刊,我们还在五种著名期刊中进一步搜索了相关关键词,包括《科学》、《自然》、《美国国家科学院院刊》、《科学进展》和《自然·人类行为》。为了进一步扩大样本范围,我们还收集了在该领域最大会议——“国际社会科学大会”(2018年)上发表论文或海报的学者名单,并将这些学者在“Web of Science”数据库中的所有文章也纳入样本。最后,为了捕捉在这些关键词流行之前发表的影响力较大的文章,我们审查了数据库中被引用次数最多的300篇文章,并进一步识别出79篇符合我们定义的文章。
在详细介绍社会学领域的结果之前,我们先对计算社会科学在更广泛的学科领域中的演变进行概述。图1展示了2000年至2016年间,在五个学术学科中提到“计算社会科学”或“大数据”这两个术语的出版物数量的时间序列图。虽然由于没有通过人工审核确认个别文章的主题是否属于计算社会科学,该图的数据只能作为该领域的粗略概览,但仍然值得注意几个关键点。首先,自2012年以来,多个学科的计算社会科学研究呈现出爆发式增长。其次,最活跃的研究领域显然是商业、心理学和教育学。虽然在这一广泛视角下,社会学领域的增长较为缓慢,但自2010年起,社会学家的相关研究也出现了显著的指数型增长。
图一
接下来,我们绘制了文集中文章的引用网络(见图2)。每个节点代表一篇论文,节点之间的连线表示这些论文之间的引用关系。我们使用Louvain社区检测算法识别出24个学术研究领域。在网络的核心,可以清晰地识别出四个主要的学术社区。第一个大型社区连接了传播学、社会学和政治学;第二个大型社区主要包括地理学和传播学;第三个较大的社区将商业和图书馆科学联系在一起;第四个值得注意的社区则连接了商业、金融和法律领域。尽管社会学在该网络的中心位置占据重要地位,它也出现在与人类学和商业管理学紧密相连的另一个社区中。我们在图2中用粉色阴影标注了社会学占据重要地位的那些社区。
图二
计算社会科学引用网络:节点的颜色根据其所属的学术社区进行区分。标签中的数字表示该社区中每个学科的论文数量。用粉色高亮标注的社区是社会学占据重要位置的社区。
虽然图1和图2为计算社会科学提供了一个有用的全景视角,但基于关键词的取样过程始终存在误判和遗漏的问题。因为本文的重点是社会学,我们采取了额外的步骤,确保我们在这一学科中的样本准确性。首先,我们获得了一个由“计算社会科学暑期学院”(SICSS)参与者编制的学者名单,这一学院是由拉塞尔·赛奇基金会和阿尔弗雷德·P·斯隆基金会资助的主要培训活动。然后,我们识别出名单中所有的社会学家,收集了他们的简历,将符合我们定义的文章添加到数据库中。其次,我们对数据库中归类为社会学的文章进行了人工编码,去除了不符合要求的文章,最终确定了248篇符合我们标准的文章。接下来的部分将详细探讨社会学中的七个子领域,每个领域中至少有五篇符合我们定义的计算社会科学文章。
三. 社会网络与群体形成
计算社会科学最早在社会学中兴起的领域之一是社会网络与群体形成的研究。这并不令人意外,因为传统的研究方法(如调查)难以捕捉社会关系在其实际背景中的动态演变。虽然许多早期的研究因这些原因采用了基于代理的模型,但来自互联网、社交媒体平台和电信数据的一手资料启发了该领域的首批大规模研究。沃茨及其同事利用电子邮件数据,展示并进一步阐释了在数字空间中一些核心的社会科学理论,如“六度分隔理论”(Dodds et al. 2003, Watts 2004)、网络动态与均衡(Kossinets & Watts 2006),以及意见领袖的作用(Watts & Dodds 2007)。同样,梅西及其同事利用电信数据证明了网络多样性与经济发展之间存在强相关性,并探索了其他与群体形成相关的理论(例如,Eagle et al. 2010)。
近期的研究则运用数字数据来研究复杂传播在社会网络中的扩散过程。Centola(2010)创建了一个在线社区,在这个社区中他可以控制社交网络的拓扑结构。这项研究表明,复杂传播在紧密聚集的网络中更有可能扩散,而随机组织的网络中扩散的可能性则较低。其他研究表明,网络拓扑结构也会影响社会习俗的传播(Centola & Baronchelli 2015)。社交媒体和电信数据还使得对大规模网络的分析成为可能。Bail等人(2017)利用Facebook数据,识别出情感和理性传播风格在讨论公共健康问题的庞大网络中的协同效应。在另一项研究中,Bail等人(2019)使用谷歌搜索数据追踪了文化产品在全球网络中的扩散模式。综合来看,这些研究表明,个体间的微观互动能够产生早期社会科学理论家,如Gabriel de Tarde所预期的宏观扩散模式。Park等人(2018)则利用Twitter和国际电话数据,研究了超长距离的网络连接。他们的研究挑战了长期以来的观点,即在网络中连接不同群体的社会关系通常较为薄弱(即基于熟人关系,而非亲密朋友)。相反,他们发现,虽然超长距离的网络连接较为罕见,但这些连接往往与连接亲密朋友圈的关系同样强大。
另一类研究通过在线游戏探讨网络动态。Shirado和Christakis(2017)招募了参与者进行一个颜色协调游戏。在游戏中,他们引入了表现不佳的机器人来模拟人类代理,结果发现这反而提高了实验中人类参与者的协调能力。在另一项实验中,受试者被安排在假想的社区中,并被要求彼此共享Wi-Fi,Shirado等人(2019)研究了网络经纪人角色如何影响不平等。他们发现,当过多人依赖那些网络连接良好的个体时,反而会给这些个体带来负面影响。在线游戏还被广泛用于研究“群体智慧”和政治信念。Guilbeault等人(2018)的研究表明,多元化的政治群体在匿名状态下能够更准确地估计政治事实,但如果暴露了他们的政治身份,估计的准确性反而下降。Becker等人(2019)发现,即便在政治同质化的群体中,群体决策的准确性仍然更高。最后,游戏也被用于研究更广泛的集体行为。Centola等人(2018)设计了一款游戏,要求参与者为虚拟角色命名,结果发现,网络结构使得少数参与者能够推翻原本占主导地位的多数意见。
四. 集体行为与政治社会学
计算社会科学在集体行为和政治领域的研究中引发了大量关注。来自社交媒体和其他通信平台的数据极大地推动了集体行为的研究。埃及革命、愤怒者运动(Indignados)和占领华尔街运动等事例表明,数字工具在抗议活动中起到了核心作用,而这些工具生成的数据也为研究集体政治行动提供了宝贵的信息(Tufekci & Wilson 2012)。Twitter因其提供的大规模数据集,成为研究信息如何在网络中传播的焦点。González-Bailón等人通过案例研究指出,运动网络中的边缘用户能够触发大规模的信息传播,而领导层和层级关系则能产生更大的信息流(Barberá et al. 2015, González-Bailón et al. 2013, González-Bailón & Wang 2016)。然而,有些学者质疑这些发现是否能推广到其他情境。Lewis等人(2014)通过分析Facebook应用程序的数据发现,在线支持者的参与度往往低于线下的激进分子。尽管如此,其他研究表明,社会运动的线上和线下活动之间有着密切的对应关系(Abul-Fottouh & Fetner 2018, Hanna 2013)。即使在线数据无法完全捕捉线下过程,它们也往往是对传统数据来源的有益补充,尤其是对于一些只能通过数字工具获取信息的运动(Zhang & Pan 2019)。
计算研究还帮助发展了与社会运动中的动员与行为变迁相关的理论。Vasi等人(2015)使用来自社交媒体和谷歌的数据,展示了纪录片放映如何在社区中激发关于水力压裂的讨论,并推动了对这一实践的抗议活动。这表明,文化产品可以被社会运动利用,来激励活动家并塑造公众舆论。在线实验也被证明在测试动员理论方面具有价值。Centola及其同事的网络实验(如上所述)强调了关键群体在传播新社会规范中的重要性(Centola et al. 2018)。Van de Rijt等人的研究利用Change.org这一在线请愿平台,进行了一系列实地实验,实验中请愿书被随机分配了不同数量的签名作为干预手段(Vaillant et al. 2015; Van de Rijt et al. 2014, 2016)。这些实验展示了累积优势效应在动员中的重要性(Van de Rijt et al. 2016),并显示最初不受欢迎的运动也有可能经历意外的复兴(Vaillant et al. 2015)。
随着文本数据的激增,研究者们也开始通过计算方法研究政治话语。Bail(2015)和Bonikowski & Gidron(2016)的研究表明,边缘化的言论如何通过分析话语场中的社会地位和语言的情感色彩进入主流视野。学者们还利用文本数据来研究某些话语风格为何在倡导团体中更为有效(Bail 2015, 2016a; Bail et al. 2017),这一点我们将在后文进一步讨论。其他研究则关注政治话语与政策变化之间的相互作用。Flores(2017)使用Twitter上的文本数据,展示了反移民法如何在亚利桑那州激化公众的反移民情绪。基于文本的数据研究还探讨了精英群体如何在不同的精英领域(如新闻界、政界和名人圈)以及国家之间塑造政治话语(AlMaghlouth et al. 2015, Wells et al. 2016)。
最后,许多研究利用在线数据、自动化文本分析、实验和基于代理的建模来研究政治极化与说服机制。 这些研究探讨了政治群体如何形成,并强调了“回音室”效应在信息选择性暴露中的作用。基于网络的研究表明,极化源自保守派和极端分子的同质性(Boutyline & Willer 2017),以及更广泛的同质性和同伴影响过程(DellaPosta et al. 2015)。其他研究使用不同方法表明,近年来候选人的政治捐款模式变得更加两极化(Heerwig 2017),并且来自精英的捐款推动了信仰的极化(Farrell 2016a)。计算社会学家还通过实验研究政党成员如何改变他们的信仰。例如,Becker等人(2019)发现,政治同质化的群体在在线游戏中作出更好的决策。同时,其他研究显示,接触对立观点有时会产生反弹效应。Bail等人(2018b)为Twitter用户支付费用,要求他们关注暴露对立政治观点的机器人,结果发现这种干预反而加剧了党派分歧。不过,其他研究表明,减少党派身份信号(Guilbeault et al. 2018)、使用特定的道德语言(Feinberg & Willer 2015)以及匹配语言风格(Romero et al. 2015)可能有助于缓解极化现象。
五. 知识社会学
计算社会科学已经成为知识社会学的核心组成部分。研究的一条路径是利用引用数据研究科学领域内部的共识形成。基于Shwed & Bearman(2010)的开创性研究,Adams & Light(2015)分析了引用网络,探讨学者们如何就同性父母子女的成长结果形成共识。他们着重分析了时间模式,并识别出科学共识形成的关键时刻,即同性父母的子女在性取向上与其他家庭结构的子女没有显著差异。Bruggeman等人(2012)则强调了区分同意性引用和反对性引用的重要性。他们通过模拟发现,哪怕是少量的争议性引用也会对引用网络是否显示出共识产生重大影响。
随着书目数据的收集和大规模分析变得更为容易,学者们能够绘制和建模推动整个科学领域发展的过程。芝加哥大学社会学家James Evans的“元知识”项目是此类研究的典型代表(例如,Evans & Foster 2011)。这一项目包括了研究团队合作在科学中日益占据主导地位的研究。例如,Wuchty等人(2007)显示,社会科学中团队合作的倾向在过去五十年中增加了两倍以上。其他研究表明,小型团队往往提出新的、具有颠覆性的科学和技术思想,而大型团队则倾向于进一步发展现有思想(Wu et al. 2019)。文本分析的进步也使学者们能够进一步阐明学科之间的相似性和差异性(例如,Evans et al. 2016, McMahan & Evans 2018, Vilhena et al. 2014)。例如,McMahan & Evans(2018)开发了一种度量标准,用以衡量科学文章中语言的模糊性。他们发现,在生物和化学科学中,表达最为一致,而在人文学科、法律和环境科学中,语言的模糊性最高。模糊的语言还会产生更为整合的引用流,从而激发更深入的学术辩论。Vilhena等人(2014)借用“文化鸿沟”这一概念,绘制了学科内外的术语差异图。虽然这些基于语言的差异与引用网络中的结构空洞不完全吻合,但它们确实阻碍了科学家之间的有效沟通。Shi等人(2015)更进一步,建模了整个学科的生成过程。他们表明,生物医学研究可以被概念化为一个动态网络,该网络根据科学家如何在不同时间点链接理论与方法不断演化。
另一类研究探讨了学术工作如何带来影响力和声望。 Uzzi等人(2013)的研究表明,影响力较大的学术论文通常既依赖于已有研究,同时也展示出创新性和非同寻常的组合。在社会学领域,Leahey和Moody(2014)发现,那些跨越多个子领域的文章往往会获得更多引用,并且更有可能发表在顶级期刊上。另一些学者则创建了大型的学术奖项数据库(例如,Li等人,2019)。利用这些数据,Ma和Uzzi(2018)研究了100年来全球学术奖项获得者的网络。他们发现,尽管奖项数量逐年增加,但推动科学前沿的奖项和学者数量相对较少,且集中于一个小范围的科学精英圈。
计算方法还揭示了科学发现的驱动因素,既包括科学家个人的选择,也包括其所在的组织环境。Rzhetsky等人(2015)研究了生物医学科学家在选择研究分子关系时所采用的策略。他们发现,这些选择反映了科学家个人的职业规划,且增加风险承担和发表失败研究结果有可能整体上推动该领域的科学进展(见Foster等人,2015)。此外,其他研究则关注组织环境的影响。Rawlings等人(2015)和Rawlings & McFarland(2011)的研究指出,一所知名大学的组织结构如何影响学术基金申请的同行影响力。他们发现,少数资深教员在知识流动中占据主导地位,而这些教员的引用历史也往往更为丰富。
还有一类研究结合了计算方法,探讨了科学的公共形象以及科学与产业的交集。 例如,Shwed(2015)的研究表明,烟草行业试图阻碍科学研究的行为,反而帮助科学家揭示了吸烟的危害。Farrell(2016a, 2016b)则通过分析气候变化的争论,揭示了私营企业如何影响辩论内容及其极化。研究显示,企业资助在辩论中推动了某些主题的广泛传播。此外,结合网络分析与文本分析的研究还帮助我们理解科学家在公共辩论中的角色。例如,Edelmann等人(2017)分析了关于潜在流行病原体研究的争议,发现科学家在该问题上公开支持的立场往往受到同行影响和专业领域的限制。学者们还通过在线购买数据研究公众对科学的消费。通过对数百万次图书购买数据的分析,Shi等人(2017)发现,倾向于购买自由派政治书籍的消费者更喜欢基础科学,而倾向于购买保守派书籍的消费者更青睐应用科学或商业化的科学。这意味着,科学既可能在公众中发挥桥梁作用,也可能加剧政治分歧。
最后,计算方法揭示了科学和知识的在线表现中存在的性别不平等现象。例如,通过分析JSTOR(一种大型学术期刊数字存储库)中的数据,West等人(2013)追踪了自1545年以来自然科学、社会科学和人文学科中学术著作的性别差异。即使女性和男性的发表数量相似,研究仍显示,男性在单独署名的论文以及有声望的第一作者或最后作者位置上占据主导地位。在另一项研究中,King等人(2017)发现,男性自引的可能性远高于女性,而且这种趋势在过去二十年里有所增强。最后,Wagner等人(2016)则研究了维基百科上的女性代表问题。他们发现,性别天花板效应限制了女性进入这一平台,且在描述男性和女性成就时存在语言差异。此外,元数据还表明,男性撰写的文章在维基百科上的阅读量和关注度往往高于女性。
六. 文化社会学、社会心理学与情感研究
计算社会科学在文化社会学、社会心理学和情感研究领域也得到了应用。在文化社会学中,许多研究探讨了广泛的文化变迁过程。Bail(2015)通过自动文本分析,研究了在“动荡时期”文化话语领域的转变,进而发展了一种系统的“共鸣”理论,即为什么某些文化信息比其他信息更具自然优势。在后续的研究中,Bail(2016b)提出了“话语承载力”的概念:那些涵盖多个主题的宣传策略能吸引更多注意力,但如果信息包含的主题过于多样,反而会削弱其影响力。Bail(2016a)还发展了“文化桥接”理论,指出那些在话语领域中担任桥梁角色的组织更有可能吸引大规模受众。类似的文化过程也出现在科学领域、市场和企业研究中(Goldberg et al. 2016a, Vilhena et al. 2014),这些我们将在本文的其他部分讨论。最后,Kozlowski等人(2019)使用词嵌入技术,研究了美国和英国在时间推移中与阶级和性别相关术语的含义变化。
随着文本数据的增长,关于文化信息如何表达的研究也出现了新的方向。大量研究基于从Facebook或Twitter等平台收集的数据。例如,Golder和Macy(2011)追踪了与不同情感类型相关的语言使用频率,发现了情感随昼夜节律和季节变化的证据。其他研究则揭示了情感传播的现象,例如,Bail(2016c)的研究发现,在Facebook上关于公共卫生问题的讨论中,情感化的语言更容易传播,且情感化的表达会让用户更容易产生情感共鸣,从而更有可能与情感化的内容互动。Bail等人(2017)发现了所谓的“认知-情感流动”现象,即理性和情感语言风格在讨论中交替出现。这些研究为人们如何通过“热”与“冷”的思维过程处理信息提供了新的见解,并解释了社交网络中的社交环境如何随着时间的推移影响表达风格的传播。
除了文本分析,学者们还开始使用虚拟现实技术来进一步研究社会心理学中的核心问题。例如,van Loon等人(2018)要求大学生进行合作任务,但将其中一半的参与者随机分配到一个使用虚拟现实技术来体验他人视角的实验条件中。结果表明,这种干预显著增加了受试者的亲社会行为。另一类研究则利用虚拟现实技术来探讨现象学与小团体过程(Schroeder 2010)。虽然虚拟现实技术在心理学等相关社会科学领域迅速发展,但社会学对这一技术的整合相对较慢。这令人惊讶,因为虚拟现实不仅为严格控制的实验中研究人们如何应对社会情境提供了巨大的潜力,社会学家在虚拟社区的早期研究中也曾走在前列(例如,Gamson & Peppers 1966)。
七. 文化生产
计算方法常被用于研究人们如何评价文化产品,如音乐、艺术或电影。在一项有影响力的研究中,Salganik等人(2006)创建了一个在线“音乐实验室”,用来研究群体影响如何塑造人们对新兴艺术家的音乐偏好。在实验中,参与者会对不知名乐队的音乐进行评分。在控制组中,参与者没有获得关于歌曲受欢迎程度的任何信息,而在处理组中,参与者则能看到每首歌曲的下载次数。结果表明,处理组的参与者更倾向于收听下载次数较多的歌曲,并对这些歌曲给予更高的评价。尽管大多数处理组中的歌曲受欢迎程度经历了“自我实现预言”——即虚假的受欢迎度逐渐变为真实的流行度——但后续研究表明,质量最高的歌曲最终能够恢复其受欢迎程度(Salganik & Watts 2008,Van de Rijt 2019)。其他研究则探讨了获得专业赞誉的动态。例如,现有研究表明,音乐或电影的年龄、类型以及是否由大型制作公司赞助,都会增加其获得行业荣誉的可能性(Light & Odden 2017,Rossman & Schilke 2014)。
计算研究还用于衡量文化产品中主题组合的影响,探索这些组合如何影响受众的反应。 例如,Askin & Mauskapf(2017)使用Spotify和Billboard的数据发现,歌曲在与前一年榜单上的歌曲相似的同时,若包含少量与众不同的元素,表现最佳。其他研究表明,不同人口群体对新颖性的偏好存在差异,比如阶级、种族和地理位置。有些人更喜欢符合单一类别的产品,比如食物或电影,而另一些人则偏好混合多种类别主题的新颖组合。那些在单一类别中表现出喜好的消费者往往符合传统的“全能型消费者”假设,他们在多个类别中都偏爱正统的、高品质的产品,而不喜欢混合类别的选择,这也被视为地位的象征(Goldberg 2016a)。然而,研究还表明,口味受到地域差异的影响,比如某些食材和食谱的流行性取决于地理位置(Wagner et al. 2014)。通过同时考虑产品的特性与消费者的特征,研究人员正在逐步发展出更为全面的理论,解释品味与消费模式之间的关系。
另一类研究探讨了个体间的社交网络如何影响文化产品的创造,通常重点关注新颖性和创新。 例如,de Vaan等人(2015)使用一个大型视频游戏制作团队的数据库,表明跨领域的开发者团队能够创造出既具创新性又受欢迎的产品。通过分析好莱坞演员的网络关系,Rossman等人(2010)展示了地位如何在共同工作的人之间传递。在这一案例中,演员若与高地位演员合作出演电影,则更有可能获得奥斯卡提名——这是电影行业中一项重要的认可事件。
最后,近期研究探讨了性别、阶级和政治身份如何影响文化产品的生产。 例如,Shor等人(2015)发现,媒体中男性出现的频率高于女性,这与记者对通常关注男性的高地位话题的偏好有关。一项对谷歌图书数据的大规模历史分析显示,随着经济困境指数(衡量通货膨胀和失业率的指标)的上升,诸如社会阶层、阶级斗争等描述社会阶层的词汇提及频率也在增加(Chen & Yan 2016)。最后,Hoffman(2019)结合文本分析和网络分析,研究了阅读模式如何影响政治意识形态,反之亦然,数据来源于大型公共图书馆的记录。
八. 经济社会学与组织研究
计算方法与网络分析方法在经济社会学中的结合也在蓬勃发展。电子邮件和即时消息记录创造了组织中个体的庞大、动态网络,这比通过自我报告生成的数据有了显著提升。个体和组织之间的早期互动——例如医院之间的病人转移——会影响社会网络的演变和资源分配(Horvát等人,2015;Kitts等人,2017)。在其他地方,即时消息数据揭示了社会平衡理论可以预测日内交易者表现优异的连续性(Askarisichani等人,2019)。消息数据还使研究人员能够衡量员工在经济决策中的协调程度,并表明同步沟通能够增加交易的盈利性(Saavedra等人,2011b)。最后,网络数据改善了对社会资本和职业结果的研究。例如,研究表明,某些网络结构对女性和男性的影响不同(Lutter,2015)。例如,如果女性处于一个以女性为主的内圈中,她们更有可能取得成功(Yang等人,2019)。网络数据不仅对研究交换和职业结果有帮助,还能用于研究组织文化。Goldberg等人(2016b)分析了一家大型公司内部的电子邮件,以衡量员工的沟通是否符合现有的规范和行为。那些能够融入组织文化的员工会获得各种奖励,并且被解雇的可能性更低(Srivastava等人,2018)。
除了网络数据,数字化的文本通讯记录也为理解文化和情感在市场中的作用提供了更丰富的视角。通过文本分析,研究揭示了市场波动如何影响交易者讨论当前或未来市场状况的方式,以及这些变化如何塑造交易行为(Saavedra等人,2011a)。其他研究表明,那些在与同事的沟通中表现出适度情感的人往往能做出最盈利的股票交易(Liu等人,2016)。最后,Schnable(2016)将定性研究方法与自动化文本分析相结合,研究了宗教如何为基层非政府组织提供文化框架,使其能够获得合法性,建立社会网络,并获得资金和资源。
九. 人口学和人口研究
计算社会科学在人口学领域的兴起相对较晚,但它正迅速受到关注(Cesare等人,2018)。毫不意外的是,计算方法最常被用于产生高质量的人口估算。移动电话数据,例如,能够提供更为动态的人口估算,特别是在国家统计数据不可靠的地区(Cesare等人,2018;Eagle等人,2010;Palmer等人,2013)。其他研究则使用Google街景和深度学习来估算社区的人口特征(Gebru等人,2017),通过众包技术测量社交媒体用户的统计数据(McCormick等人,2017),利用网站绘制大型家谱树(Kaplanis等人,2018),并使用在线图像数据来预测年龄(Helleringer等人,2019)。计算方法也被用来研究人口学中的“神圣三位一体”:生育、死亡和迁移。为研究生育和死亡,研究使用了谷歌搜索数据和Facebook数据(Hobbs等人,2016;Kashyap & Villavicencio,2016;Ojala等人,2017)。其他研究则使用来自Twitter和LinkedIn的数据,开发出更为准确的国内外迁移估算方法(Palmer等人,2013;State等人,2014;Zagheni等人,2017)。
人口学家还使用计算方法来探讨人口过程中的微观动态,如约会和婚姻。最近的几项研究使用大型互联网约会平台的数据,分析跨种族和族群的关系如何形成。Lewis(2013)发现,在互联网约会中存在强烈的种族同婚现象,但他也表明,如果有人接受来自一个不熟悉的、不同种族或族群的人的约会邀请,他们更有可能赴约。Lin & Lundquist(2013)则发现,女性更可能回应来自主导种族和族群成员的约会邀请,而不论社会距离如何。在美国以外的情境中,Potârca & Mills(2015)发现,欧洲国家中存在非常强的种族和族群同婚现象,尤其是在种族单一的国家。Bruch及其同事(2016;Bruch & Newman,2018)最近的研究则探讨了城市中单身男女的数量等人口层面的因素,如何在身体吸引力之外影响个人决策过程。
最后,人口学家还通过数字数据来源,研究难以接触的群体及社会上不受欢迎的健康行为。例如,Kashyap & Villavicencio(2016)使用谷歌搜索数据研究印度选择性堕胎的流行情况。Bail等人(2018a)使用谷歌搜索数据研究人口因素如何导致暴力激进化。Moreno等人(2012)利用与调查相关联的Facebook数据,测量了美国大学生酗酒的普遍性。Chakrabarti & Frye(2017)通过日记数据的文本分析研究艾滋病预防。Araujo等人(2017)利用Facebook的广告工具,追踪了47个国家中生活方式疾病的流行情况。其他研究则使用这些数据重新探讨了迁移、生育和性别隔离等人口学中的核心问题(Fatehkia等人,2018;Rampazzo等人,2018;Stewart等人,2019)。例如,Stewart等人(2019)通过追踪对非美国足球队感兴趣的受众规模,研究了美国南部无证移民的文化同化问题。
其他学者则借鉴数据科学领域的惯例,开发出全新的人口研究模型。在这些领域中,通常会通过竞赛让多个团队竞争,构建模型以赢得奖金。一个典型例子是“Netflix奖”,数据科学团队通过竞赛构建最优的推荐模型,以预测Netflix用户可能想观看的内容。普林斯顿大学的社会学家Matthew Salganik运用了类似的模型,组织了“脆弱家庭挑战赛”,分阶段发布了一项关于不平等和家庭的多波研究——“脆弱家庭和儿童福利研究”的新数据波次。他邀请研究团队基于一小部分的新数据子样本(通常称为训练数据集)开发模型,以预测完整数据集中的感兴趣结果,该完整数据集稍后发布(Salganik等人,2020;Lundberg等人,2018)。虽然该项目未能在现有模型基础上取得重大进展,但它为机器学习在人口科学乃至整个社会科学中的应用提供了一项重要的试金石。
十. 结论
正如本综述所展示的那样,计算社会科学领域正朝着许多令人振奋的新方向扩展。实际上,该领域扩展的速度如此之快,以至于任何对现有文献的综述都可能很快过时。然而,这一初步的回顾表明,计算社会科学已经成为众多不同分支领域研究中的核心部分。或许更为重要的是,该领域已经远远超越了早期以描述性社交媒体研究为主的阶段。事实上,社会学家们已经开发出一系列将计算方法与更传统技术相结合的混合方法,既能够充分利用数字数据源的优势,又能解决其局限性。然而,社会学家们也在迅速追求新技术的前沿。尽管机器学习在社会学中尚未迎来其决定性时刻,人工智能、机器人和虚拟现实等技术已经为社会学家提供了新的研究工具和方法。
©Political理论志
本文内容仅供参考,不代表理论志观点
“在看”给我一朵小黄花