『柏拉图说』是由南京大学计算传播学实验中心的成员们于2022年4月发起的论文精读与推介活动,我们将定期推送新闻传播学TOP期刊最新内容、新闻传播学前沿及相关量化研究方法论文。我们致力于深耕传播学领域,紧跟专业研究热点,延伸学术视角,拓展群体智慧。
柏拉图说 论文推介第 175 篇
Liao, T. F., Bolano, D., Brzinsky-Fay, C., Cornwell, B., Fasang, A. E., Helske, S., Piccarreta, R., Raab, M., Ritschard, G., Struffolino, E., & Studer, M. (2022). Sequence analysis: Its past, present, and future. Social Science Research, 107, 102772.https://doi.org/10.1016/j.ssresearch.2022.102772
摘要
在社会科学研究50周年之际,本文回顾了序列分析(SA)技术引入社会科学40年来的发展历程,重点介绍了序列分析技术在社会科学领域的发展及其未来的发展方向。在过去的15年中,SA在社会科学,特别是生命历程研究中的应用迅速发展。运用生命历程的类比,我们在论文中考察了社会科学中SA的诞生及其童年(第一波),青春期和青年期(第二波)以及未来的成年期。本文总结了(1)社会科学研究的重要意义和Andrew Abbott发展社会科学的历史背景;(2)全面回顾了可视化、复杂性度量、差异度量、差异分组分析、差异聚类分析、多域/多通道社会科学、二元/多元社会科学、马尔可夫链社会科学、序列生命历程分析、序列网络分析、社会科学研究中许多方法的发展;(3)对人工智能未来发展方向的思考,包括人工智能如何有益于社会科学的理论制定,目前正在开发的方法,以及人工智能面临的一些我们尚未找到解决方案的挑战。我们希望读者能够接受挑战,帮助我们改进和成长SA。
序列分析的发展历程
1.起源与早期发展(1980s - 2000)
背景与应用拓展:为解决具有过程性或顺序性的社会科学问题而发展,如职业或组织生涯问题。输入数据形式从个体数据点转变为数据序列,早期多为单维序列。
Andrew Abbott 的贡献:发表一系列论文,将 SA 引入社会学和历史研究,如分析音乐家职业、福利收养序列、期刊文章结构等,其贡献源于对社会序列的兴趣、数学技能、跨学科联系、编程能力及对主流定量范式的独立态度。
2.成长与发展(2000 - 至今)
关键问题与发展总结:众多期刊专刊、研讨会和书籍对其进行了探讨,涵盖多种方法,如可视化、复杂性测量、差异测量、群体分析、聚类分析、多域 / 多通道分析、二元 / 多元分析、马尔可夫分析等。
多领域应用拓展:在生命历程研究、政治科学、空间学科、调查方法等领域广泛应用,如分析就业轨迹、政治参与轨迹、居住流动性、调查数据管理等。
序列分析的主要方法
1.可视化
序列的可视化需要显示三个分类维度:观察单位、时间点和状态。人们可以根据不同的聚合级别来区分序列图:那些显示信息量较高但聚合较少的图通常显示出较低的可读性,反之亦然。可视化序列的经典且可能是最直观的方法是 Scherer (2001) 引入的序列索引图(sequence index plot),其中每个单独的序列被绘制为一条水平线,其中不同的颜色代表(离散)时间中的不同(分类)状态单位,从左到右排序。
计算机的能力的提高,导致在最近的SA中,所有三个维度的能力也都增加了:更多的观察、更多的时间点和更多的状态。因此,序列索引图的构造被修改,并开发了新的图形类型。下图为德国职业教育和培训后的个人进入劳动力市场的流程,从上到下依次为序列索引图、状态比例/分布图(state proportion/distribution plot,在堆叠条形图中显示每个时间点的状态相对频率,显示了状态分布随时间的总体变化,忽略了个体序列多样性)、模态图(modal plot,仅由一条水平线组成,显示每个时间点最常见的状态,信息损失最多)。
为了让读者了解序列类型之间的差异,显示所有三种图形类型可能是最有用的策略,因为这样的图形表示并总结了序列及其特征。
1.测量轨迹复杂性
与可视化类似,复杂性度量也描绘轨迹。生命历程轨迹可能很复杂,具体取决于序列长度、状态变化的数量以及不同状态的数量。定量地描述这种复杂性是很有意义的,例如,可以区分平滑的职业或家庭路径与更混乱的轨迹,或者识别恶化的轨迹,即趋向于不利状态的轨迹。状态变化的数量、不同状态的数量、序列内状态分布的熵以及相同状态(spell)持续时间的方差都可以用作序列复杂性或序列内多样性的粗略指标(文中还提到了一些其他更精细的指标)。例如,在本次分享的第一个图中,序列4和5显得比其他三个序列更复杂,因为状态变化数量较多,而且这两个序列中状态分布的熵较高。
通过复杂性指数测量的序列复杂性通常用作轨迹稳定性的指标。然而,除非有明显的趋势,否则通常不清楚复杂性(不稳定性)应该被视为积极的还是消极的。例如,具有多个连续改善的变化的复杂序列可以反映有利的演变,而多个连续恶化的变化可以代表不利的演变。同样,就业的完整序列通常是有利的稳定轨迹,而失业的完整序列是不期望的轨迹。
2.差异/距离测量
计算观察到的序列之间的成对差异允许人们测量一组序列的多样性,对相似的序列进行分组以构建轨迹类型,比较轨迹组,计算序列的主坐标,定义邻域,并识别代表性序列,例如中心点(medoids)。因此,计算出的差异是后续分析的关键步骤。
继 Abbott 和 Forrest (1986) 的开创性工作之后,最佳匹配(OM)已成为评估序列差异性最常用的方法。从技术上讲,OM 通过计算将一个序列转换为另一个序列所需的最小成本,并考虑两种编辑操作:状态的替换和插入删除 (indel),来测量序列之间的差异。虽然此类编辑操作可以解释为生物学中的突变和信息科学中的信号变化,但它们在社会科学中没有直接的解释(因此一些学者也提出了新的方法)。然而,可以证明,根据OM,如果两个序列共享一个很长的公共子序列,则它们被认为是相似的,这可以解释为两个轨迹的“公共主干”。
Studer 和 Ritschard(2016)确定了这种比较需要考虑的三种指标:状态的顺序、状态或转换的时间点、持续时间。
第一张图的序列1 和 2 在时间和持续时间上非常相似,因为它们在大部分轨迹长度上同时处于相同状态,但具有不同的顺序。序列 1 具有改善的动态,而序列 2相反。序列2 和 3 具有相同的顺序,但在时序和状态持续时间上有很大差异。序列 4 和 5 显示相似的顺序和持续时间,但时间不同。根据所选择的标准,人们可能会得出关于序列相似性的不同结论。因此,人们需要选择用于比较序列的标准,并且这种选择应该基于一个人的实质性研究问题。
相异性度量的直接应用是寻找代表性序列,例如中心点,它是位于最中心的观察序列,它与其所代表的序列的距离总和最小(有点像k聚类)。另一个代表是具有最密集邻域的序列,即,对于给定半径r,距其距离 r 内具有最多数量的其他序列的序列。但单个代表通常不足以呈现其应表征的群体内部的多样性。因此,Gabadinho 和 Ritschard (2013) 建议为每个组使用多个代表,并提出一种启发式方法,用于识别组中所有序列的种类百分比的最小代表集,以便至少给定百分比的序列位于与其中一位代表的距离 r。这种小的代表集对于通过突出典型序列以及同时突出组内的多样性来综合表征一组序列特别有用。
3.群体差异分析
研究人员的兴趣通常不是评估个体序列之间的相似性,而是利用上面提出的差异性度量,关注群体之间的差异,例如性别、种族、国籍、社会阶层等。SA 工具包提供了通过两种方法更直接地研究序列与其他变量之间关联的工具:ANOVA与利用BIC和LRT的改进版。
Studer(2011)等人提出的基于方差分析的差异分析,采用类似方差分析(ANOVA)的原理,将差异矩阵转化为差异度量,该差异度量可视为序列数据变异程度的一种量化。例如,计算每个群体到其重心(即最小化到所属群体所有序列距离之和的假设序列)的平均距离,以此衡量群体内序列的离散程度。
该方法用于测试不同群体(如按性别、社会阶层等划分)的序列是否存在显著差异。例如,可检验男性和女性就业轨迹的标准化程度是否不同,即通过比较两者的差异分数,判断其就业轨迹的可预测性差异;还可通过方差分解,量化序列差异中可由其他变量解释的比例(Pseudo R square或BIC来衡量),从而揭示不同变量对序列差异的影响程度。比如,研究教育程度对就业轨迹差异的解释程度,判断教育在不同性别群体中对就业轨迹的影响差异。
4.聚类轨迹分析
该方法旨在将一组序列划分为不同的簇,使得簇内序列具有较高的相似性,而簇间序列具有较大的差异性。它通过计算序列间的成对差异(如采用最优匹配 OM 或其他距离度量方法)来评估相似性,进而确定聚类。例如在分析职业发展轨迹时,比较不同个体在职业转换、状态持续时间和事件顺序等方面的差异,以实现聚类。其应用算法包括层次算法(如 Ward 算法)和围绕中心点划分算法(PAM)等,层次算法按一定规则逐步合并或分裂簇,PAM 算法则从随机划分开始,以簇内最相似的序列(中心点)为核心进行迭代分配。该方法在生命历程研究、市场研究等众多领域广泛应用,可揭示数据中的潜在模式,如识别典型生活轨迹类型、了解消费者行为模式等。为确保分析结果可靠有效,会使用内部同质性(簇内序列相似程度)和集群间分离度(簇间差异程度)等指标评估聚类质量。
5.多域/多通道分析
在上文中,SA 专注于在单个域中的轨迹。尽管如此,社会科学家通常对研究多个领域定义的轨迹感兴趣。具体来说,联合(或多通道)SA 关注每个个体在多个轨迹中的情况。现在的目标是研究这些轨迹如何共同展开。在方法论上,多通道分析与二元或多元序列的研究相关,即对配对轨迹观察到的同一领域的研究。
Fasang 和 Aisenbrey (2021) 最近展示了工作和家庭这两个生活领域之间的联系强度如何成为解决有关研究问题的一个有希望的指标。两个距离矩阵之间的相关性的Mantel系数显示,黑人女性的工作和家庭生活的相关性最高,而白人男性的相关性最低,这表明一个领域中的事件强烈影响或限制另一领域中的事件。
6.二元/多元序列分析
这种方法基于每个序列与通过特定(社会)关系连接的一个或多个序列之间的直接比较。在生命历程研究中,二元序列(多元序列的特例)分析非常普遍,通常用于比较家庭成员的轨迹。
Liao(2021)确定了分析二元序列的三种方法,并贡献了第四种方法。首先,可以使用多通道 SA,其中二元体的每个成员都是通道之一。其次,可以使用网格序列分析,其中序列数据被重塑为网格序列。第三,将基于 OM 或基于特征的方法的平均二元相似度与不相关二元的平均相似度进行比较。最后,Liao(2021)提出的方法通过区分二元距离和二元联系程度与随机构建的二元相比,提供了对联系生活的个体测量。此外,与其他策略相比,该方法可以更容易地扩展到多元体,并且它能够识别二元体或多元体成员之间相似性的时间、持续时间和顺序的单独影响。
相关轨迹之间的差异可以在回归框架中用作因变量或自变量:例如,可以检查父母和孩子二人组的家庭生活轨迹,其代际的相似性应该大于不相关二人组轨迹之间的相似性。或者,这种差异可以作为聚类分析的输入,以识别特定过程的理想典型模式。这种分析有一定的数据要求。首先,要比较的二元序列的长度必须相同。其次,必须在数据中明确识别所研究的二元关系。在生命历程研究领域,满足这两个条件的数据源相对较少。然而,在调查数据的情况下,需要事前进行多代设计,而在登记数据的情况下,需要家庭成员的身份识别和链接记录之间的数据可以事后进行。最后,研究人员在分析多元序列轨迹时必须做出额外的决定,即在计算差异时是否应将多元成员之间的成对关系视为同等重要。对于友谊网络成员来说,两两关系可以被认为是平等的。然而,对于三人家庭来说,父母之间的相似性可能与父子或母子之间的相似性不同,如果不同,则应应用差异权重。
7.马尔可夫序列分析
在其最基本的形式——Markov chain(MC)中,变量的下一个状态仅取决于当前状态,并且假设状态之间的转换概率在时间上保持不变。例如,在分析个体的职业转换序列时,如果一个人当前处于“就业”状态,那么根据MC模型,他下一个时期处于“就业”或“失业”等状态的概率仅与当前“就业”状态相关,而与之前的职业历史无关(在满足模型假设的情况下)。这种简化的假设使得基本MC模型在计算上相对容易处理,但在实际社会科学应用中可能存在一定的局限性,因为现实中的许多社会过程往往受到多种历史因素的综合影响,状态转换概率可能随时间变化。
用于社会科学中序列数据分析的最有趣的马尔可夫模型(MM)扩展之一是包含可以是时间常数或时变的隐藏变量或潜在变量。添加时间常数的潜在变量会产生混合马尔可夫模型(MMM),通常用于聚类序列,并且还可以同时将协变量用于预测聚类或转移概率。在 MMM中,每个个体都确定性地分配到一个聚类,有一个状态的概率分布。引入时间变化的潜在变量则得到隐藏或潜在 Markov模型(LMM),它能够分析可观察状态之间的时间依赖关系如何受到潜在过程的影响。在生命历程研究中,许多不可直接观察或难以测量的因素(如个人动机、价值观、健康状况等)可能影响个体在不同生活状态(如教育、就业、婚姻等)之间的转换,LMM模型可以通过潜在变量捕捉这些隐藏因素的作用机制,更准确地解释和预测个体的生命轨迹。将时间常数和时间变化的潜在变量相结合,就形成了混合潜在Markov模型(MLMM),它综合了MMM和LMM的优点,能够同时考虑潜在群体结构和潜在动态过程对序列数据的影响。
序列分析(SA)在社会科学研究中的应用
1.生命历程研究
核心理论与应用成果:关注类别状态轨迹,研究生命历程中的长期发展、时间、关联、能动性等核心理论;SA有助于理解家庭生活轨迹对收入和健康的影响、生命事件的时间顺序和相关性、能动性与生命历程的关系、宏观因素对生命轨迹的影响等。
推动方法发展:为应对生命历程中的异质性,推动了新 SA工具的发展,如改进序列复杂性指数、结合SA与数据挖掘技术、组合SA与事件历史分析等,以更好地解释理论问题。
2.序列网络分析
网络分析方法:将序列元素视为网络节点,通过社会网络技术分析序列数据,理解序列结构,可研究多种现象,如饮食实践、旅行模式、职业流动性、组织工作实践和能源消费等。
方法应用案例与意义:以能源消费研究为例,揭示活动序列与能源需求的关系,发现周末活动序列特点及工作相关时间表对家庭活动序列的影响;该方法有助于识别活动序列中的异质性,为干预提供依据,也促使序列概念融入社会网络分析领域。
3.其他社会科学研究
政治科学:应用于分析不同单位(如个人、组织、运动、制度过程)的序列,如个人职业轨迹、政治参与轨迹、制度行为者间的互动和立法步骤等。
空间学科:探索居住流动性、通勤模式、旅游行程、社区社会组成变化和土地利用等模式,揭示空间流动性与时间的联系。
调查方法:用于调查管理和监测,如识别异常采访行为、比较不同数据记录方式的就业轨迹、研究缺失数据对联合 SA的影响等。
4.序列分析(SA)的软件工具
早期 Andrew Abbott提供计算程序,需在其他统计系统中进行后续分析。如今主要的SA工具包包括Stata中的SQ和SADI模块以及R中的TraMineR包等,这些包提供多种功能,如序列可视化、距离计算、序列摘要变量计算等,且部分包不断更新,未来有望继续得到支持。
序列分析(SA)的未来发展方向
1.理论发展潜力
测试与发展理论:在生命历程和家庭人口学等领域评估研究假设和理论,如批判第二人口转型理论、研究国家背景对工作 -家庭生活的影响、评估累积劣势等;对测试和发展关于过程速度、顺序和时间的理论有重要作用。
拓展分析单位与因果机制探讨:虽主要以个体为分析单位,但有潜力用于其他单位,如夫妻、宏观结构过程等;SA可通过详细描述过程事件顺序为因果机制提供信息,结合其他方法(如事件历史分析、匹配程序)可接近因果评估,也可通过重建因果链提供定性信息。
2.当前方法发展趋势
结合其他方法:与事件历史分析结合,可纳入时变协变量,但需注意方法的改变;与匹配程序结合可进行因果推断,如通过不同匹配方法平衡处理组和对照组特征。
聚类类型验证:通过参数自举框架,将给定聚类与无聚类情况进行比较,测试聚类质量,提供阈值基线值,解决聚类类型验证问题。
3.有待发展的方法
处理缺失数据和不同长度序列:开发更有效的缺失数据处理方法,考虑上下文信息进行插补;制定指导原则,确定不同长度序列比较的可行性和最大长度差异。
应对大数据序列挑战:大数据序列面临内存和计算时间限制,可采用采样方法或并行处理计算,目前相关工具尚待完善。
序列生成模型与合成生命历程:需要开发更易解释的概率模型来模拟序列生成过程,评估模型再现序列特征的能力;探讨利用面板数据构建合成完整生命轨迹的方法,验证模型假设,开发自动化工具。
考虑状态和时间粒度:时间和状态定义的粒度会影响结果,需研究如何选择合适的粒度,如职业分类代码和时间单位的选择,以及优化状态表大小的方法。
作者信息
Tim Liao是伊利诺伊大学厄巴纳—香槟分校的社会学和统计学教授,也是LAS校友杰出教授学者。他是序列分析协会主席,也是Socius的新任编辑。他于2021年获得美国社会学协会方法论的Paul F. Lazarsfeld奖。他是2017-2018年行为科学高级研究中心研究员。他最近担任《生命历程研究进展》 (2021-2024年)副主编和《人口统计学》 (2016-2024年)副主编,并担任《美国社会学评论》(2021-2023年)和《社会学季刊》(2020-2023年)的编辑委员会成员。他曾任《社会学季刊》副主编(1992-2000)、Sage的《社会科学定量应用》系列主编(2004-2009)和《社会学方法论》主编(2009-2015)。他曾任美国社会学学会方法论分会理事(1998-2001)和北美华人社会学学会理事(2000-2002)。他还曾任《 社会学方法与研究》和《社会学方法论》 编委 。2009年至2011年,他担任美国社会学学会方法论分会主席。
分享者