NBER近日上线一篇新工作论文“Social-Science Genomics: Progress, Challenges, and Future Directions(社会科学基因组学:进展、挑战与未来方向)”,论文编号32404,作者为美国加州大学洛杉矶分校Daniel J. Benjamin、纽约大学David Cesarini、南加州大学Patrick Turley、和加州大学洛杉矶分校Alexander Young。
社会科学基因组学(Social Science Genomics)是一个跨学科研究领域,结合了社会科学(不仅仅是经济学)和基因组学的理论和方法,旨在探索和理解基因对人类行为、社会经济结果和健康的影响。(工作论文链接点左下角“阅读原文”)
近年来,由于基因测序成本的大幅下降,人类遗传学的许多领域都取得了迅速进展。自从二十年前首次成功完成的人类基因组测序以来,测序成本已从数百万美元降至几百美元。这些成本的下降使得综合基因型数据集的爆炸性增长。
样本量的增加促进了对特定基因变异(即DNA中因个体差异而异的区域)与表型(可测量特征或行为)之间联系的研究进展。这些进展主要来自全基因组关联研究(GWAS),这种研究设计估算了个别基因变异与感兴趣的表型之间的关联。尽管大多数GWAS是由医学遗传学家进行的(重点关注疾病),但关于社会和经济行为表型的GWAS数量也在过去10年中稳步增长。
对于社会科学的应用,GWAS的主要价值在于其生成的汇总统计数据可用于构建基于DNA的预测器(DNA-based predictors),这些预测器是个人基因变异的加权平均数,其权重来自GWAS的汇总统计数据。文献中使用了许多术语来描述这些预测器,包括多基因评分(PGS)或多基因风险评分(PRS)。本文更倾向于使用多基因指数(PGI)这一名词。目前,具有最高预测性的PGI的表型包括身高、BMI、教育成就(EA)、女性首次月经年龄和自评健康。
基因数据的普及迅速为社会科学基因组学研究开辟了新机遇。Becker等(2021)概述了一些最常用的数据集,目前使用最广泛的是英国生物银行(UK Biobank),其样本量约为50万人。经济学中常用的几个包含个体层面基因数据的数据库还有:美国健康与退休研究(HRS)、英国老龄化纵向研究(ELSA)、收入动态面板研究(PSID)和德国社会经济面板(GSOEP)。
ELSA数据介绍
GSOEP数据介绍
社会科学基因组学研究通常在某个数据集中分析构建的PGI,这些PGI使用独立且不重叠样本中进行的GWAS计算的权重。在基因变异测量可用之前,大多数研究将遗传影响视为潜在变量,通过对比双胞胎、被收养者和其他亲属的表型相似性来推断其效应。相较之下,PGI是可观测变量,可以直接纳入分析中。
先前在经济学期刊上发表的两篇综述(Beauchamp等,2011a;Benjamin等,2012)是在首次大规模社会科学表型GWAS(即教育成就GWAS,Rietveld等,2013)之前发表的。第三篇综述(Dias Pereira等,2022)对部分主题提供了简明易懂的非技术性介绍。最近的综述已在社会学(Freese,2018;Braudt,2018;Martschenko等,2019;Conley,2016)和心理学(Plomin等,2016)中发表。与这些综述相比,本文旨在更明确地阐明与相关遗传理论的联系,并提供更全面的技术细节说明。尽管本文主要面向经济学家,但也希望对其他学科的研究人员有所帮助。
作者认为社会科学基因组学有两个发展趋势:一是利用带有基因分型的直系亲属大样本进行因果推断;二是在非欧洲遗传血统群体中进行GWAS并构建PGI。有研究指出,现有大多数GWAS在欧洲血统群体中进行,其发现不一定适用于其他血统群体,这就是所谓的“可移植性问题”。
本文的主要目标是让感兴趣的研究人员了解社会科学基因组学的前沿动态,提供一个从基础生物学和遗传学概念到GWAS和PGI及其在社会科学中的应用的整合发展。此外,本文还提供了一个统一的框架,阐明方法背后的假设和关键结果的直觉。在整个综述中,作者还强调了因果推断问题和基因效应的适当解释。