供稿:韩文卓,武汉大学
校稿:张杉,武汉大学
推送:张杉,武汉大学
今天给大家分享的文献发表在Nature Reviews Genetics上,标题为Gene–environment interactions in human health,通讯作者是约翰霍普金斯大学彭博公共卫生学院流行病学部的Wojcik, Genevieve L研究员。
全基因组关联研究(Genome-wide association studies,GWAS)已经识别出许多与复杂性状相关的遗传位点,但这些性状的广义遗传力(遗传变异占表现型总变异的百分数,H2)显著高于由多个单核苷酸多态性(基因组中涉及单个核苷酸的替换、插入或删除,Single Nucleotide Polymorphism, SNP)的组合效应所产生的的狭义遗传力(h2 SNP),这一现象被称为“缺失遗传力”, 对于许多复杂性状,这表明 基因-环境交互作用(G×E)可能是“缺失遗传力”的原因之一。
尽管如未考虑的罕见或结构变异、非线性遗传效应、表观遗传继承、水平或垂直微生物传播,或双生子研究中对共同环境估计不足等因素也可能导致“缺失遗传力”,但深入研究G×E能够识别出新的基因和揭示新的生物学通路,并优化公共健康干预和疾病预防策略。本文综述了G×E对人类复杂性状和疾病的影响,并探讨了 G×E 研究的设计、方法和挑战。
环境、社会文化和遗传因素通过多层次生物反应和行为过程,动态影响生命周期内的人类健康,如图1所示。G×E研究设计需迭代选择研究问题、分析方法,并协调遗传与环境数据
图1 描述遗传易感性以及环境和社会暴露在整个生命周期中对人类健康的共同贡献的框架。
研究遗传与环境如何共同影响人类健康,需要基于具体研究问题选择合适的分析框架,该框架应包含数据收集、质量控制和数据分析三个模块,如图2所示。文章指出分析框架应集中回答两个问题:第一,哪些基因变异(variants)存在G×E效应?第二, 在什么环境条件下(contexts)观察到这些效应?
为回答第一个问题, 在数据处理环节开展变异调用与筛选(Variant calling and filtering),以识别候选基因变异,为后续分析提供基础。在分析环节中既可以采取单标记分析,包括:全基因组关联分析(GWAS),探索基因型(G)与表型(Y)及其与环境的交互作用(G×E);方差定量性状位点(vQTL),进一步聚焦具有显著G×E效应的变异位点;也可以采用多基因分析方法,如全基因组交互扫描(GWIS),在不同研究设计(病例对照、病例设计、暴露分层设计)下,进一步确认基因变异是否存在显著的G×E效应。
为回答第二个问题,可以通过收集环境数据并整合和分层分析,包括:GWIS设计、G×E遗传率(h2GE)、G×E相关性(rGE)揭示变量如何与基因变异交互影响表型。也可以通过方差多基因评分(vPGS)分析环境如何影响遗传风险的分布,和PIGEON模型估算G×E方差及协方差。
图2 G × E 方法的一般概述。
G × E 研究的数据收集和质量控制
随着微阵列技术和新测序手段的兴起以及计算能力的提升,GWIS逐渐取代了传统的候选基因策略。GWIS不仅在遗传和功能分析的下游研究中具有更大的灵活性,而且显著提高了结果的可复制性和可移植性。同时这也表明GWIS要求严格的质量控制措施以应对潜在的批次或平台效应必要时可进行基于参考参考流程的基因型数据填充。
在多中心研究或多个独立研究的数据整合中,数据采集点的异质性可能对测量结果造成影响。PhenX工具包提供了覆盖30多个领域变量的协议和定义,可用于数据协调。而缺失的表型或环境暴露数据则可以通过相关结构或家系信息进行推测;若无法推测,应优先分析未暴露个体的完整数据。
在研究构思阶段应通过比较既有研究中的问卷数据和生物评估结果,这有助于选择研究变量并确定元分析的优先变量。此外,量化作用效果能够帮助研究人员理解研究设计在现有数据条件下的限制,选择合适的分析方法。数据分析过程中需注意性状归一化和尺度选择对结果解释的影响。测量尺度(如原始值或对数尺度)会影响交互效应的大小。尽管性状转换可缓解尺度效应并适应非正态分布,但也可能引入假设检验偏差,导致假阳性或假阴性。当研究中环境数据尺度不一致时,可通过验证异常研究结果,并结合地理位置、时间或生命阶段等因素,谨慎报告和解释发现。
G×E分析需在数据选择、整理和协调方面进行严格把控。整合研究时,应在研究或元分析阶段实施质量控制,以避免偏差。同时,通过评估模型误设或应用暴露分层分析,利用协变量来消除因素间的差异性影响。
尽管统计交互可能反映机制交互,但不一定意味着生物或功能层面的实际交互,因此统计方法的选择应结合合适的分析框架和研究目标,控制混杂因素,准确解读结果,研究需要清晰报告建模假设和选择,并全面评估所有测试场景下的遗传效应,以便结果的情境化和可复制性。
在种群水平上量化环境在遗传变异上的贡献:此外,遗传变异还通过个体生活方式(如吸烟)或社区因素(如社会支持)影响环境质量,rGE用于衡量基因与环境的关联程度。尽管rGE无法用于个体风险预测,但可在病例对照研究中识别G×E变异并优先分析特定性状-环境对。然而,rGE可能作为混杂因素影响G×E建模,需通过家族研究设计或联合建模方法解析各因素的独立贡献。
最后,孟德尔随机化(MR)通过遗传变异作为工具变量,研究可调节环境因素对健康结果的因果效应,而非直接量化环境对遗传易感性的差异。例如,在英国生物库中,MR-G×E通过将酒精和身体活动作为交互协变量,改进了BMI对收缩压因果效应的估计,但需谨慎处理水平多效性等偏倚来源以提高推断精度。
PGS×E估计可通过病例分析或病例-对照设计实现,GWIS汇总统计亦可为权重生成提供支持,但不同方法的性能存在差异。PIGEON通过结合GWIS和GWAS数据,提供了更无偏的G×E估计。
G × E 关系的的基准和变异水平的识别:评估G×E关系的变异水平效应可通过联合模型或分层模型实现。联合模型将基因主效应、环境主效应及其交互项纳入单一统计模型,通过1DF或2DF方法检验交互效应,分别衡量基因或环境对结果的独立及联合影响。分层模型则根据环境暴露水平将人群分组,分别估算每层中的遗传效应,并通过元分析整合结果。
联合模型在检测低频变异时表现出更高的效能,但在协变量-环境混杂的情况下可能引入更高的I类错误率。结合多个研究的元回归方法可解决该问题,适用于定量性状及性别、年龄等特定效应分析。总体而言,联合模型优于分层模型,但需针对具体研究情境选择合适框架。
通过联合或分层方法评估的变异体水平效应:
G×E估计可通过联合模型或分层模型实现。联合模型将基因主效应、环境主效应及其交互项纳入单一统计模型,通过1DF和2DF方法分别检测独立效应和联合效应,其中2DF方法更具信号检测能力,但1DF测试有助于明确信号来源。分层模型根据环境暴露水平将人群分组,分别估算遗传效应,并通过1DF元分析整合分层结果。在缺乏分层数据的情况下,J2S框架可从联合G×E汇总统计中估算分层和边际效应。尽管联合2DF元分析在低频变异分析中表现更优,但可能因协变量-环境混杂导致I型错误。元回归方法通过结合多项研究,可有效评估定量性状的暴露分层遗传效应,并挖掘特定性别、年龄的相关效应,同时支持多种扩展分析框架以适应复杂研究设计。
提高G × E统计效能的方法:
研究基因和环境对人类健康影响的分析相比标准GWAS方法通常统计效能较低,可通过两种方法增强统计效能:筛选候选位点以减少比较数量,或通过集合分析联合评估多个变异的效应。筛选方法结合数据驱动或假设驱动策略,优先分析特定变异集或基因以减轻计算和统计负担,使用如机器学习或贝叶斯方法来建模优先集的G×E效应。创新方法如vQTL×E筛选能捕捉G×E动态特性,但仍面临分析挑战,如假信号的产生需通过敏感性分析和多尺度验证缓解。相较筛选,集合分析通过聚合弱效信号放大G×E检测能力,尤其适合罕见变异。基于方差成分、性状相似回归、负担检验及序列核关联测试等多种方法的集合分析已广泛应用,并在英国生物库等大规模数据中显示出显著成果,如MC4R与性别交互对BMI的影响。然而,集合G×E的统计框架在元分析中仍受限,主要依赖固定效应和随机效应模型、线性混合模型和方差成分方法。
对大规模生物样本库应用的思考:
建立大规模人群生物样本库将促进多种可计算的G×E统计框架的发展,支持大规模基因组分析。这些框架能够应对大规模生物样本库在样本选择和数据可用性方面的潜在问题。例如,针对不平衡的病例-对照比,GWIS采用了鞍点近似方法;而fast GWA-GE则可以考虑亲缘关系的同时进行基因组范围的主效应、G×E效应及联合效应的测试。大规模测序研究中,使用不同方法如:MAGEE、StructLMM、LEMM评估聚合效应。MAGEE通过遗传关系矩阵处理亲缘关系,StructLMM和LEMM则通过建模环境相似性和环境暴露聚合效应来提高统计效能,后者特别适用于检测协同或拮抗效应。
G×E的灵活性:
揭示G×E复杂性需要考虑基因与环境之间的动态交互,特别是时间对其的影响。基因效应可能因环境而变化,需采用多重暴露、多性状或环境评分方法处理复杂动态。这些方法利用基因多效性提高分析效能,发现更多G×E通路。元回归和半参数模型可以捕捉环境层次中的效应差异,揭示传统方法无法发现的信号。例如,研究叙利亚难民和约旦青少年在韧性与基因变异的交互中发现显著影响,但未观察到与时间相关的变化。
基于家族的遗传效应研究:
家族设计在G×E研究中比病例对照方法更能抵抗人群结构的影响,但因样本选择、变量定义和环境暴露分布差异,可能在复制评估中面临挑战。这些设计便于探索父母性状对后代结果的因果环境影响,因为PGS可以同时捕捉遗传和环境因素。研究使用父母和子代PGS,探讨遗传传递和遗传抚养对儿童结果的影响,此外,通过结构方程模型,考虑配偶选择效应,进一步分析父母遗传和环境因素对后代性状变异的影响。
G × E的挑战与未来方向
G×E研究面临统计效能、暴露/组学数据测量与质量控制、研究特定混杂因素、环境暴露共线性、遗传谱系及G×E动态等方法论和概念挑战。
多组学作为联系遗传和环境影响的纽带:
整合多层组学数据有助于加速新基因或疾病机制的发现。基因表达和DNA甲基化模式在一定程度上受到遗传控制,不同人群间的差异由遗传相似性和种族或民族身份定义。DNA甲基化模式与多种环境暴露相关,并可调控基因表达。近期研究通过整合基因-生活方式交互、DNA甲基化和基因表达的汇总统计,优先识别相关位点。另一项研究评估了六个供体的多能干细胞对不同治疗的基因表达变化,发现约一半的结果未在大规模表达分析中报道,突显了限制基因组变异的潜力。成功应用多组学进行G×E识别、特征化和预测,需开发高效的数据存储和分析策略,以应对高维度、批次效应和时间异质性等挑战。
G × E的遗传多样性和环境多样性的复合需求:
人类性状的G×E架构知识仍然有限,部分原因是至今开展的G×E研究数量较少,仅占所有研究的1.14%和GWAS信号的1.87%,如图3a所示。当前G×E研究的另一个限制是遗传研究中的多样性不足,这对历史上未充分研究的群体尤其重要,因为这些群体可能面临环境健康差异,如污染暴露或营养缺乏,进而影响G×E效应的估计。此外,不同人群间的等位基因频率和连锁不平衡差异可能影响基因与环境的交互作用,若不考虑局部遗传背景,可能导致虚假的G×E信号。因此,在评估不同人群和环境间的差异时,必须考虑遗传背景与社会经济/文化因素的相关性。
为了应对环境地理异质性,必须采取适当的策略。忽视这种多样性可能限制公共卫生举措的覆盖范围,尤其是对受环境不平等影响的群体;相反,如果未充分考虑,可能导致偏倚结果。通过对同质子群进行分层,可以通过限制环境或基因变异来提高信号检测,但前提是表型变异不至于减少到影响研究问题的程度。
尽管对子群分层策略尚无统一共识,但探索性分析和敏感性分析可帮助辨别基于民族、主要祖先群体、基因组簇群或环境/人口簇群的样本分配效应。进一步的国际合作和多元化研究队伍,特别是在祖先、地理和社会经济背景上,将有助于深入理解基因效应,缓解G×E研究中的欧洲中心偏见,并促进研究领域的区域多样性,从而塑造更全面的科学问题和资助方向,如图3b-d所示。
G × E遵循FAIR数据原则:
生物库和联合体推动了汇总统计成为数据共享标准,尽管部分G×E框架使用这些统计标准促进对疾病机制理解,但通过GWAS目录公开的数据较少。PGS目录虽缺乏PGS×E数据,但未来有望得到丰富。推动在FAIR数据原则下的开放数据共享,能提高可重复性和透明度,促进研究传播和新框架发展。鉴于G×E分析框架的多样性,应制定PGS×E报告指南,解决混杂和交互问题,评估遗传力变化为PGS临床应用提供新见解。
图3 2008—2022年,GWAS的特征变化和探索过程。
本研究讨论了遗传和环境因素的交互作用(G×E),解决G×E研究中的方法论和概念性挑战,强调多样性、标准化报告和数据共享的重要性,并推动考虑遗传变异类型的框架发展。通过识别G×E,有助于加深对生物机制的理解,并为精准医学和公共卫生决策提供支持。
文章编号:463
原文链接:
https://doi.org/10.1038/s41576-024-00731-z
原文引用:
Herrera-Luis, Esther, Benke, Kelly, Volk, Heather, Ladd-Acosta, Christine, Wojcik, Genevieve L*. Gene–Environment Interactions in Human Health. Nat Rev Genet. 2024; 25(11), 768–784.