生物标志物是可用于测量和评估各种生物过程的生物学特征,包括疾病的进展和患者对治疗的反应。近年来有关衰老生物标志物的研究如同雨后春笋般大量涌现,但在其广泛应用之前还需要进一步的评估和验证。2024年2月14日,美国国家老龄化研究所Luigi Ferrucci教授团队在Nature Medicine在线发表了题为“Validation of biomarkers of aging”的文章,详细阐述了目前在衰老生物标志物验证方面的研究现状及挑战,并对后续研究提出了可行的建议。
摘要
近年来,关于可以量化生理衰老的生物标志物(尤其是基于组学研究的生物标志物)的研究不断涌现。这些生物标志物可以预测衰老相关的风险后果,同时还可以作为促进健康老龄化和长寿的干预手段的检测指标,评估干预手段的临床益处。然而,在将这些生物标志物转化到临床使用之前,如何对它们进行验证评估还没有达成共识。文章综述了在人群队列中对衰老生物标记物预测效用的评估研究现状,并讨论了衰老生物标志物的验证在可行性和普适性上的挑战,同时为未来如何推动衰老标记物验证研究提出了建议。最后,文章讨论了衰老生物标志物的系统性验证如何促进其临床转化及在衰老干预临床试验中的具体应用。
研究背景
衰老是慢性疾病、生理和认知退化乃至死亡的最大风险因素。尽管如此,我们在理解和治疗衰老相关疾病时极大地忽略了衰老进程本身的生物学影响。衰老生物学假设指出干预衰老本身拥有同时预防多种衰老相关疾病的潜力。随着全球老龄人口持续增长,干预衰老延长健康寿命的诉求也与之加剧。为了实现这一目标,人们对生物标志物越来越感兴趣,这些生物标志物可以定量评估生物学年龄,并最终可能作为评断临床研究中衰老相关结局的替代终点。
许多现有的衰老生物标志物最初是为了预测时序年龄而开发的,在这个过程中研究人员逐渐发现预测生物学年龄与时序年龄之间的偏差(AgeDev,age deviation)与衰老相关结局和疾病有关。最近开发的衰老生物标志物侧重于预测生物学年龄(即与衰老相关的生物学变化的水平,例如分子和细胞损伤在某个时间点累积的影响)以及健康结局而不是时序年龄。值得注意的是,在实际应用中,生物学年龄就像时序年龄一样,通常被概括为一个数字(以时间为单位)。无论采用何种发展策略,目前大多数衰老生物标志物都可以预测衰老相关结局,并在回顾性流行病学研究中发现与衰老(速度)相关的因素。此外,研究者们已经开始提供关于衰老生物学机制的线索。尽管取得了这些进展,衰老生物标志物的有效性和应用性仍未得到生物医学家的广泛认可。与各种特定疾病的生物标志物相比,目前没有类似美国食品药物管理局或欧洲药品管理局等监管机构提供用来标准化衰老生物标志物研发、测量或验证的推荐指南。
验证是定义生物标志物的多步骤过程,包括证明标志物的可靠性,准确性以及预测衰老相关结局的能力。在衰老生物标志物研究领域中,这一过程需要广泛的专业知识,例如衰老的生物学机制(包括在动物模型和人类中的保守通路和机制)、复合型生物标记物的设计和构建、收集和存储生物样本以及在代表性人群中评估衰老相关预测因子和结局的流行病学研究的设计、执行和分析(包括生物库和队列研究),以及在多个不同人群样本中验证生物标记物。因此,基础科学家和临床研究人员之间的合作对于成功完善这一过程至关重要。
本文作者此前提出了一个用于衰老生物标志物分类和评估的共识框架。现在,本文作者将生物标志物验证作为临床转化过程中的下一步。首先,作者阐述了目前基于人群队列研究来验证衰老预测性生物标志物的工作,并讨论了在此过程中遇到的挑战。本文作者主要关注基于血液的复合型标志物(而非单分子标志物)和基于“组学”检测的生物标志物。血液可以以微创方式获得。在体内血液与其它组织持续接触,因此可能提供有关整个生物体生物学年龄的信息(尽管这仍在探索中)。与单一生物标志物相比,生物标志物的综合组合更有可能捕捉到衰老进程复杂的全身效应,而那些基于快速发展的高通量组学技术和人工智能(AI)的组合有望大幅提高下一代衰老生物标志物的性能和转化价值。为了促进和提高验证过程的严谨性,本文作者为特殊人群生物标志物的标准化和协调提供了指南,并就用于度量其预测性能的指标提出了建议。
生物标志物验证的现状
理想情况下,生物标志物的验证应具有稳健性,以应对因技术、分析或应用人群不同而产生的随机和系统性差异。此外,应提供有关协变量的广泛信息,以考虑优化其性能。文章在方框1中简述了一些对生物标志物验证至关重要的概念、技术考虑因素和术语。总体而言,为了确定衰老生物标志物的可靠性、准确性和临床效用,应当采取一个包含多种类型验证的综合过程。
迄今为止,衰老生物标志物的预测验证(因为它们与衰老相关结局的相关)主要依赖于先前在观察性队列研究中收集的数据。该过程是目前衰老生物标志物验证领域最活跃的研究领域,是进一步验证和转入临床应用的重要先决条件。队列研究通常会在多个时间点收集代表受试者健康和功能状态的样本和临床数据,并允许评估不同人群多种健康状态下生物标志物的关联性和预测能力,以及识别相关协变量。本文作者专注于跨人群验证(即在多个队列中进行验证),因为这是回顾性观察研究中验证血液来源衰老生物标志物的最可靠方法。为了将后面各节中概述的建议置于背景中,本文作者首先概述了生物标志物验证工作的现状(包括不同的数据资源),并讨论了该领域目前面临的挑战。
方框1衰老标志物的验证方法
生物学验证: 生物学验证评估了检测方法在多大程度上反映了有关衰老生物学的基本知识。如果生物标志物所处的信号通路是衰老诱因之一而不仅仅是与衰老相关,那么它们的可信度就会变高。
跨物种验证: 跨物种验证评估了生物标志物在多个物种中的功能性。如果某一标志物与在系统发育保守的通路有关,那么它很可能揭示了衰老相关的跨物种普适现象。
预测验证: 预测验证涉及对生物标志物基础预测模型的性能进行无偏倚测试,以预测未来衰老相关结局。例如,可以评估风险率(Hazard ratio,HR)或衰老相关结局发生时间。理想情况下,真正的外部预测验证是使用未用于训练模型的独立数据(通常使用机器学习或统计方法)进行的。在衰老生物标志物的背景下,大多数预测性验证都是使用回顾性分析进行的,但未来的研究应考虑通过追踪预期的衰老相关结局来进行预测性验证。
分析验证: 分析验证用于评估测量生物标志物方法的准确性和可靠性,包括样本收集和储存方法、分析测定和考虑的协变量。该过程旨在建立测量实践标准,并确定测定的精密度、灵敏度、特异性和可重复性。
临床验证: 临床验证旨在确定生物标志物的临床效用,即在某一疾病条件下,利用该生物标志物是否有助于更好地了解相关疾病,并帮助取得更好的治疗效果以重获健康。例如,衰老生物标志物的临床验证可能需要评估利用生物标志物对衰老相关结局进行预测是否比利用时序年龄具有更好的效果。
不同数据源和研究设计的应用
横断面研究产生的许多大型数据集的开放获取(例如存储在基因表达综合数据库(Gene Expression Omnibus,GEO)中的数据集)促进了早期衰老生物标志物的开发。横断面研究提供了变量测量值和相应表型数据的快照(图1a)。这些研究确定了许多与时序年龄相关的生物标志物,包括几种可溶性的炎症生物标志物(例如,白细胞介素6(IL-6)、C反应蛋白(C-reactive protein))或激素水平(例如空腹胰岛素(fasting insulin)和硫酸脱氢表雄酮(dehydroepiandrosterone sulfate))。早期的“第一代”表观遗传生物标志物也被用于预测时序年龄。然而,横断面研究发现的衰老关联可能会因为时间的推移和受试人员的流失而产生偏差,这可能会妨碍标志物对衰老相关结局做出准确的预测。此外,横断面研究难以评估个体内部对干预措施的反应变化(对变化的敏感性),而这恰恰是在临床试验中使用衰老生物标志物的关键需求。
图1 衰老生物标志物相关的人群队列研究的设计方法。
与横断面研究相比,纵向研究在不同时间连续收集同一个体的生物学指标(组学或其他生物标志物)、表型(临床特征)和与衰老相关的不良健康结局(图1b)。大多数纵向研究还包括遗传变异的数据,并且通过孟德尔随机化研究,它们可能有助于确定特定的生物标志物是否与健康结局有因果关系,或者更确切地说,这些生物标志物反映了能够抵消不良健康结局及病理过程的分子机制的激活(通常被定义为“弹性”机制)。大多数研究收集有关受试者人口学特征(例如,年龄、性别)、生理指标(例如,体重指数、血压)和常规实验室结果(例如,全血细胞计数或血常规、血生化)的纵向信息,并可能额外收集有关死亡率和死因以及其他与衰老相关结局的数据,包括多病症、机体和认知功能的相关指标和虚弱程度。衡量日常生活活动和工具性日常生活活动障碍的标准能提供参与者个体水平及其随时间推移而恶化的健康状况信息。
在分析上,生物标志物通常在某个时间点被关注,并与未来结局有潜在关联,例如死亡率或疾病发作、身体和认知功能随时间的变化。然而,一种信息量更大的方法是考虑定期从同一参与者那里获得的重复测量。这种方法可以研究生物标志物与临床结局的时间轨迹之间的关系,从而提供“衰老速度”的最佳近似值。因此,只有纵向队列数据可以在一些特别的方面支持衰老生物标志物的开发和验证,例如针对多种不同结局和横跨不同人群的预期验证。此外,与医疗资源使用相关的结局,如住院率和急诊室的使用率,也可能与衰老生物标志物高度相关。将衰老相关结局和(功能性)衰老轨迹信息与死亡率分开,可以使这些生物标志物在转化为临床研究方面更具吸引力。
许多队列研究建立了安全储存生物样本的生物样本库,将来可以访问这些样本以测试新的假设或采用新的可用技术进行分析。生物样本库是生物标志物研究的宝贵资源(特别是在测试和验证方面),尤其是在有关联的临床和/或组学数据以及随访样本和/或数据的情况下。除了作为标准队列研究的一部分而收集的样本外,还存在大规模的通用生物库,可用于生物标志物的开发。例如,英国生物样本库(UK Biobank)包含大量的遗传和健康信息,拥有来自五十万英国参与者的生物样本。多项研究已经评估了英国生物样本库中各种衰老相关结局的组学预测因子。随着测量生物标志物的成本不断降低,该生物样本库和其他生物样本库目前正在扩大其可用的组学数据范围。芬兰FinnGen队列(FinnGen cohort)(n=~500, 000),日本生物银行(BioBank Japan)(n=~260, 000)和麻省总医院布莱根生物库(Mass General Brigham Biobank)(n=~135, 000)最近还生成了大型多组学数据集,有望用于验证衰老相关结局的多种生物标志物。一些存储库正在采取措施,将其数据存放在有据可查且可访问的数据库中:例如,美国国家老龄化研究所(US National Institute on Aging)发起了互补性解码长寿计划,以生成大规模、跨物种、多组学数据集。
跨群体验证研究的现状
即使存在现有的队列研究和生物样本库,系统地跨人群验证仍然相对有限。尽管如此,仍有几种衰老的生物标志物已在多个队列中得到了验证,其中最常采用的结局指标是全因死亡率。尽管围绕死亡率作为终点存在一些问题,但它的优势是定义明确。
表1展示了验证基于血液的复合生物标志物预测未来死亡率的代表性研究列表。其中许多研究在多个队列中开发并验证了该特定生物标志物,或者是使用其他人开发的生物标志物并在一个队列中进行比较,两种方法之间的差异如图2所示。此外,补充表1显示了已在多个队列中测试、具有代表性的衰老生物标志物集合(补充表2中描述了队列)。作者在这里的目的不是系统地回顾以前的研究或进行荟萃分析;相反,所提到的研究是为了说明以可靠、可比和可推广的方式验证衰老生物标志物所面临的挑战。
表1 | 基于未来死亡率的血液复合生物标志物的验证研究
表格列出了随访≥10年的研究。表中显示了从Cox比例风险回归得出的几种衰老生物标志物与全因死亡率之间的HR。作者旨在为报告多个模型的研究纳入最具代表性的调整模型,并将HR作为评估生物标志物在事件发生时间分析方面性能的最常用指标。请注意,报告的HRs不能直接比较,因为不同研究中预测变量的度量单位不同。此外,许多因素(例如,群体特征和数据预处理)都可能会影响预测性能。
缩写:AgeDev,年龄偏差(age deviation);EEAA,外源性表观遗传年龄加速(extrinsic epigenetic age acceleration);IEAA,内源性表观遗传年龄加速(intrinsic epigenetic age acceleration);s.d.,标准差(standard deviation)。队列:NHANES,美国国家健康与营养调查数据库(National Health and Nutrition Examination Survey);FHS,弗雷明汉心脏研究(Framingham Heart Study);FINRISK,芬兰针对重大慢性非传染性疾病危险因素的人口普查(National FINRISK Study (Finland) for non-communicable disease intervention);WHI,妇女健康倡议组织(Women’s Health Initiative);WHI-HT,妇女健康倡议组织的激素疗法研究(Women’s Health Initiative-Hormone Therapy);JHS,杰克逊心脏研究(Jackson Heart Study);NAS,规范性老龄化研究(Normative Aging Study);InCHIANTI,意大利基安帝地区老年人群研究(Invecchiare in Chianti);KORA,奥格斯堡地区合作健康研究(Cooperative Health Research in the Region Augsburg);LBC,洛锡安出生队列(Lothian Birth Cohort);LLS_SIBS,莱顿长寿兄弟姐妹研究(Leiden Longevity Sibling Study);ARIC,社区动脉粥样硬化风险研究(Atherosclerosis Risk in Communities Study);SATSA,瑞典收养/双胞胎老龄化研究(Swedish Adoption/Twin Study of Aging);GS,苏格兰万人队列(Generation Scotland);TILDA,爱尔兰老龄化纵向研究(the Irish Longitudinal Study on Ageing);FITSA,芬兰老年双胞胎队列研究(the Finnish Twin Study on Ageing)。
图2 使用不同数量的队列或生物标志物验证衰老的生物标志物。
a,大多数现有的生物标志物都是使用单个队列的数据开发的,有些已经在第二个外部队列中进行了验证。跨多个队列的多种生物标志物可以进行荟萃分析比较。b,生物标志物验证研究需要考虑不同的变异来源,例如群体特征、样本收集、数据预处理、分析和报告的异质性。
在验证血液中生物标志物的研究中,大多数报告的用于预测死亡风险的风险率(Hazard ratio,HR)处于中等范围;然而,一些研究报告了令人印象深刻的指标,使这些生物标志物成为临床前和临床研究的良好潜在候选者。例如,Huan等人和Deelen等人分别在他们的研究中报道了其表观遗传组学生物标志物和代谢组学生物标志物的死亡风险增加(HRs分别为1.85和2.73)。然而,这些数值仍需谨慎解释,因为它们依赖于不同的计量单位;它们需要通过不同队列中的独立验证来证实,并且需要使用一致的评估措施将其性能与其他生物标志物进行比较。到目前为止,相对较少的研究比较了多个队列中的单个(复合)生物标志物或同一队列中的多个生物标志物,使用标准化和等效的测量单位使它们具有完全可比性。作者认为,需要对许多大型队列中的各种衰老生物标志物进行系统和全面的基准测试,并延长随访时间(>10年),以实质性结果推进该领域(图2a)。
验证衰老生物标志物所面临的挑战
尽管取得了大量的进展,对衰老生物标志物预测能力的比较仍然具有挑战性。即便对于死亡率等明确定义的结局,评估组学生物标志物预测性能的研究结果也存在异质性。造成这种不一致的潜在原因包括具有不同特征的不同研究人群;分子和结局数据在记录、格式和编码上的不同;生物标志物预处理和制定范式的不同;以及验证分析和报告方法的不同(图2b和表2)。在接下来的章节中,作者重点介绍了这些问题。
群体特异特征
衰老生物标志物的预测性能可能因潜在人群的特征而不同,包括年龄分布、种族、健康与疾病状况、身体与认知功能。例如,在高度暴露于污染或环境污染物的人群中,癌症生物标志物似乎对全因死亡率具有高度预测性,即使它们在普通人群中并非如此。与此相关的难点在于,在许多大型队列研究和生物样本库中,参与者缺乏多样性,这些研究和生物样本库的欧洲血统比例过高、主要是白人参与者。这些研究的结果可能不适用于非白人、种族多样化的个体,这限制了他们的外部有效性。存在以更多样化的人口或关注少数族裔人口为特色的例外情况,例如杰克逊心脏研究(https://www.jacksonheartstudy.org/)或多样性社区的健康老龄化终身研究(Healthy Aging in Neighborhoods of Diversity across the Life Span,HANDLS),但还需要更多的研究来了解不同人群中衰老生物标志物的异同。值得注意的是,在人群中可重复的衰老生物标志物可能反映了衰老生物学的基本机制;这种生物标志物对临床和基础研究应用都具有广泛的意义。
分子数据和结局数据
队列研究通常是为了解决特定的科学问题而设计的。因此,每个队列或生物库都具有独特的内容,以独特的方式收集和记录以解决这些问题。即使进行类似分析的研究也可能使用不同的方法。例如,可以使用不同的微阵列检测(27K, 450K, 850K)或用不同的方法分离DNA来收集表观遗传数据,即使对不同平台共享的表观遗传靶点也会产生略有不同的估计。同样,可以从血浆或血清中收集代谢组学或蛋白质组学数据,导致不同的数据分布,并使用不同的技术(例如,质谱法或基于适配体的测定)进行测量或使用不同的命名法来标记这些数据。不幸的是,目前还没有为衰老生物标志物的验证,针对分子数据和衰老相关结局制定统一标准。现有的项目和联盟,如代谢物名称参考集(RefMet)、代谢组研究联盟(COMETS)、心脏与衰老研究基因组流行病学协作体队列(CHARGE)、欧洲、加拿大和非洲国家队列共同体(CINECA)、跨组学精准医学项目(TOPMed)、英国纵向研究联合体(UKLLC)、林堡大学生物银行(UBiLim)、泛欧洲生物样本库与生物分子资源研究中心(BioSHaRE-EU)和荷兰生物样本库与分子生物资源研究中心(BBMRI-NL)正在为特定数据类型的组织制定标准,以促进其他领域的大规模合作,但在老年科学领域尚未开始这类工作。
死亡率是生物标记物验证最常用的结果,以死亡时间作为参考结果构建的生物标志物也倾向于预测慢性病以及独立于时序年龄的功能和认知结果,这表明它们捕获了与整体健康相关的一个维度。然而,直接使用非致死老龄化相关结局,如多病、活动能力差和虚弱,可能更好地捕获有关衰老速度的信息,并且可能对临床应用更有效。这些指标可能包括国际公认的多病、虚弱、残疾、认知或生活质量指标评分系统,以及更注重健康的指标(如活力、适应力和健康寿命),尽管目前还没有就如何量化后两者达成共识。除了特定队列的挑战之外,队列数据的可访问性仍然是一个普遍存在的问题:申请访问许多政府出资的数据集通常需要冗长的文书工作和审查过程,通常可能需要数月或数年。
生物标志物的鉴定程序
用于识别或学习生物标志物与衰老结局之间关系的统计和机器学习模型仍处于开发和验证的早期阶段,许多建模挑战仍有待解决。例如,许多现有模型假设衰老的生物标志物与整个生命周期中衰老结局的可能性之间存在线性关系,但最近的研究却发现了多个非线性的例子。围绕数据准备的技术考虑也是个挑战。例如,最近的研究表明,从CpG水平数据中计算主成分作为生物学年龄预测的输入,可以提高表观遗传生物标记物的重测可靠性。这些和其他独特的个体测量转换使得不同生物标志物的交叉比较具有挑战性。此外,生物标志物或其成分可能对潜在的样品组成敏感。例如,有证据表明,与衰老相关的甲基化在不同的循环免疫细胞中有所不同。因此,比较或验证研究应始终仔细调整不同类型循环细胞的比例。研究还可能以不同的方式处理缺失数据或重复测量的生物标志物,这可能潜在地影响功率或扭曲性能估计。这个问题对于蛋白质组学分析尤其重要,因为它往往产生许多“低于检测阈值”的值。这些值可能不是随机的,而是包含了重要的信息。最后,目前没有关于如何最好地整合来自同一个个体的纵向重复测量以及是否应该考虑轨迹或独特值的指导。
研究设计与报告
研究设计的几个方面,如随访时间、事件数量和死亡率报告的偏倚可能会导致研究之间的差异。统计方法的差异也是差异的显著来源。例如,不同的验证研究常通过控制、调整或分层来解释不同的潜在效应修饰因子。这些因素预计会影响组学生物标志物与衰老相关结局之间关系的强弱,这代表了(跨)验证研究中生物标志物比较的另一个挑战。此外,研究可以使用不同的协变量调整策略,以不同的方式(例如,与参考组相比,每标准差(s.d)或每单位增加)报告HR等性能指标(表1)。在Cox比例风险回归模型中,生物标志物可以被编码为连续变量(标准化或非标准化),也可以被编码为捕获生物标志物水平分位数的有序变量,甚至可以被编码为随时间变化的协变量。前一种方法提供生物标志物水平每一单位差异(例如,每s.d)的风险估计信息,而第二种方法则考虑一个水平(通常是最低分位数)作为参考组。这些不一致性也困扰着其他领域,阻碍了可靠的交叉比较、基准测试和评估衰老生物标志物的荟萃分析。
对生物标志物验证的建议
在多个队列中对多种生物标志物进行大规模的跨群体验证是必要但具有挑战性的,需要大量的努力和资金。根据该领域的现状和上面概述的挑战,作者按照目标利益相关者分组,为验证研究的基准测试和报告提供以下建议。
对生物标志物开发人员的建议
在复合型或算法型生物标记物于人群队列中得到验证之前,需要验证捕获生物标记物与结局之间生物学关系的潜在统计或机器学习模型。重要的是要检查这种联系在多大程度上可以被合理地归因于潜在的生物学。生物标志物开发人员需要确认其模型的统计假设在目前知识范围内是否反映了预期的生物现象。例如,随着最近的研究不断揭示生命不同阶段独特的年龄依赖性表观遗传变化,越来越清楚的是,非线性或分段表观遗传生物标志物可能比那些在整个生命历程中与年龄呈线性关系的生物标志物更准确地代表人类寿命的全部阶段。
生物标志物的成功验证需要开发、计算预处理和分析以及在多个独立人群中验证其预测有效性的方法完全透明。因此,预处理流程应该遵循最终实现数据协调的最佳实践指导方针。例如,对缺失值或重复测量值的处理(例如,使用插补或机器学习方法)、数据归一化和质量控制会影响预测性能;因此,为这些步骤建立并遵循标准和最佳实践非常重要。同样,应公开提供复合生物标志物计算所使用的程序(正如美国国家科学院医学研究所对所有基因组学测试的建议),以允许其他研究人员独立计算生物标志物分数,而无需向生物标志物开发人员上传或传输数据。此外,生物标志物制定应该允许跨新数据集的简单实施。事实上,大多数组学生物标记物可以用标准化的数学术语(参见ClockBase对表观遗传生物标记物的和MiMIR对代谢组学生物标记物的规范化所做的工作)和标准化的软件包来制定,这些软件包可以简化各种生物标记物的计算,包括血液生物化学(例如,BioAge)和表观遗传学(例如,在https://bio-learn.github.io上的Biolearn和methylCIPHER)。如果按照科学界广泛讨论和接受的指导方针进行验证和实施,将会产生更强有力的结果。
表2 | 衰老生物标志物验证所面临的挑战和相应建议
为了支持未来的验证研究,建议开发人员考虑采用能提升其生物标志物未来可推广性、跨人群有效性和潜在临床有效性的可能性方法和数据源。目前,表观遗传标记是最常被提出和研究的复合型生物标记物。作者建议开发新方法来解决生物标志物目前面临的、包括可解释性和技术稳健性在内的一些被广泛承认的挑战。涉及纵向样本收集的研究可能对这一目的特别有用,因为所得数据可以增强对这些生物标志物动态特性的理解。此外,作者建议使用其他补充组学数据以开发能够捕捉那些表观遗传数据可能无法最好反映的衰老方面的生物标志物,这些组学数据包括代谢组学、蛋白质组学、转录组学和脂质组学,这些数据的生物学解释通常不太复杂。随着许多组学的成本正在下降,队列和生物库越来越多地包含多种数据模式,预计在不久的将来,多组学生物标志物将变得很常见,这强调了对可获取且标准化的方法的需求。
对数据维护人员的建议
生物标记物的成功验证取决于数据的获取以及相关队列中衰老相关表型和分子数据的规范化。应该广泛采用便于数据共享的程序,在保持个人数据隐私的同时,实现更及时、更广泛的访问(如NHLBI BioData Catalyst机构)。数据存储库可以而且应该提供关于可用数据和数据格式以及数据访问标准和审查过程的透明信息,包括基于历史统计的预期审查时间。此外,最好提供合成数据集(具有相同的数据结构和分布)、数据避风港(即敏感数据的安全存储和计算)和联合访问(统一的中央访问),以促进对数据的更广泛访问。资助机构和其他财政支持者应被鼓励提供上述一项或多项举措。对于访问受控制的敏感数据,联合分析可能是一个合适的折衷方案,特别是使用基于云的方法。在联合分析中,数据在主机机构服务器上保持分散,但可以以保护隐私的方式进行分析。旨在验证生物标记物的个人可以向数据所有者提供生物标记物的产生程序和/或在安全的环境中进行分析,仅访问概括数据或合成数据而不是要求转移敏感数据。
许多举措(例如RefMet, CHARGE, TOPMed, UBiLim, BBMRI, BioSHaRE-EU)已经采取措施标准化生物标志物命名、标准化人群队列或标准化生物库数据,以促进跨人群研究,这些举措通常遵循严格的回顾性数据协调指导方针(如Maelstrom)。虽然需要这些后续的努力来改进现有的数据,但队列或生物数据库数据维护者可以通过从数据库或队列研究的起始就遵循记录和报告生物标志物和衰老结果测量的最佳实践来促进这一过程。特别是,数据所有者应力求与FAIR数据原则保持一致(确保数据可查找、可访问、可相互操作和可重复使用),提供机器可读的元数据和数据字典,以实现统一,并在数据描述出版物中提供数据结构记录。特别是对于较老的或正在进行的长期随访的纵向研究,上述步骤代表了一个相当大的挑战,需要来自衰老研究团体的更多支持。上述努力的成功将增加数据的效用,特别是对于需要标准化数据的跨种群的联合学习和分析。
对跨群体验证研究团队的建议
应该在多个不同的群体中评估衰老的生物标志物,以考虑遗传血统、性别、地理环境、环境或生活方式因素、生命阶段以及健康或疾病状态的差异。这一步骤至关重要,因为即使看似已经确立的生物标志物也可能不适用于所有人类群体。例如,APOE4等位基因是白种人群体中阿尔茨海默病的最强风险因素,但在非裔美国人和西班牙裔人群中,这种关联明显较弱。此外,在巴西的土著农耕民族Tsimane人中,APOE4似乎能够保护他们免受认知能力下降的影响。如上所述,许多现有的衰老综合生物标志物是在以白种人、欧洲血统为主的队列中训练得来的。遗传研究设计中类似的偏见导致了多基因风险评分的开发,这些评分在非欧洲血统的人群中预测准确性降低。
尽管许多衰老的综合生物标志物在不同遗传血统群体中显示出一些可比较的预测准确性的证据,建立具有非欧洲血统的多样化队列以验证新的衰老综合生物标志物仍然是一个优先事项。其他关键的交叉验证方向可能包括气候区域、国家或大陆以及对各种化学或生物风险因素的暴露水平。这将需要在各个地理区域和少数民族人群中建立资源和研究能力的努力。除了常用的队列外,许多其他的队列研究或生物库(许多专注于招募多样化或少数民族人群的队列)可能也适合进行衰老生物标志物的验证研究。其中一些已经添加或正在添加(多)组学数据(表3),这将有助于进一步改进衰老生物标志物的开发或验证。
表3 | 目前含有多组学数据的队列或生物样本库
开发者应努力对生物标志物验证的各个方面进行标准化,包括生物标志物的鉴定程序和统计分析(如上所述),以期实现跨研究的可比性。例如,生物标志物的鉴定程序应该事先确定,并且在验证过程中不再进一步修改(换句话说,“锁定”程序)。此外,统计分析的结果中,应包含未校正过的原始数据,按照年龄和性别矫正的数据,以及完全矫正的数据,进而允许更广泛的跨研究比较。研究还可以考虑上述的其他因素,包括样本组成。为了确保结果的可比性,社区需要采取一定的步骤,使分析中包含的最小协变量集统一,并按年龄、性别和/或种族等子群体使用分层分析。最后,按标准差报告HR和生物标志物水平的绝对单位差异(例如,生物标志物增加1标准差和一个单位的变化)使得不同生物标志物和荟萃分析之间的比较更加容易。虽然完美的标准化可能不切实际,但朝着标准化的方向前进至少将能够对不同人群的结果趋同的程度进行定性评估。
准确报告研究结果对于实现跨群体验证至关重要。作者建议研究人员遵循观察性研究报告的既定指南,例如《流行病学观察性研究报告加强计划》(Strengthening the Reporting of Observational Studies in Epidemiology, STROBE),以提高发现的透明度和可重复性。当一个研究包含多个队列时,所有群体都应该充分描述,无论是总结还是单独描述。当关注死亡率作为关键的与衰老相关的结局时,研究应该基于可靠信息报告所有原因的死亡率,以及可能的话,报告特定原因的死亡率,这可能基于底层人口特征的不同而有所不同。几个多组学数据集提供了与死亡率分开的关于衰老相关结局的信息(表3),这些信息可以代替或者附加于死亡率使用。对导致加速衰老的某些(慢性)疾病的亚组进行分析(例如,感染人类免疫缺陷病毒),将帮助了解衰老生物标志物水平的这些变化是否与发病率或死亡率的增加有关,或者是否需要在这些个体组中使用定制的生物标志物来预测临床结果。考虑到衰老过程中明显的性别差异,相关的临床结果至少应该按年龄组和性别进行分层和单独报告。此外,建议对各种人口统计数据(例如,种族、国家或先前存在的健康状况)进行分层分析的扩展报告,以评估其结论的通用性,因为在不同分层中表现良好的模型更有可能具有良好的外部有效性。报告高度分层的结果也将有助于进行荟萃分析。
展望
在过去十年中,基于血液的衰老生物标志研究取得了实质性进展。尽管这些工具在长寿干预的试验中有着巨大的前景,但在将它们转化为临床使用的过程中仍然存在重大障碍。文章强调了在验证这些生物标志物时遇到的挑战,并提出了克服这些障碍要做出的努力。即使是解决相对简单的挑战,如效应报告的标准化,也将极大地有益于衰老生物标志物的比较和验证。对多个群体进行使用不同技术(例如代谢组学、蛋白质组学、表观遗传学等多组学方法)的多种衰老生物标志物的基准化研究,将提供对它们在性能和稳健性上更全面的理解。进行这种大规模的比较研究是这一领域取得进展的关键,但这需要研究小组之间加强合作,并为透明共享生物标志物鉴定程序和数据创造激励机制。实现和谐化的共同发展需要得到包括生物标志物开发者、数据所有者和流行病学研究者在内的多样化利益相关者群体的认可,这才有可能实现最终目标——确定最有希望的候选临床优先级生物标志物。
作者进一步建议,未来的工作应该旨在纳入更多临床相关且可干预的结局(代替死亡率)。许多队列研究提供了支持这一目标的替代健康结局数据(表3),包括特定慢性病、多病共存、器官特定的生理完整性以及身体和认知功能的数据。使结果标准化并具有可操作性是非常有价值的,这确保了结果间真正的可比性。发展个体的、纵向的生物标志物的前瞻性研究将为该领域提供急需的资源。这些研究将是至关重要的,特别是关于评估生物标志物是否对生理变化敏感,例如那些由长寿干预、老年疗法或其他预防措施引起的变化。
理想的衰老生物标志物应与时序年龄有中等到强烈的关联,能预测除死亡率之外的多种与衰老相关的结局,如功能衰退、虚弱、慢性疾病和残疾以及(多种)发病率。理想的衰老生物标志物对影响衰老的上游因素十分敏感,如压力、不利事件、环境、遗传和生活方式,并且这些标志物会介导上游因素与衰老结局之间的关系。它们应在许多不同的人群中有效,并且在不同人群中的作用相对类似。满足这些要求的衰老生物标志物应优先进行验证,作为筛查和诊断生物标志物,最终作为临床试验中的替代终点。虽然实现这一长期目标的清晰路线图尚不存在,但在整个领域内对生物标志物和人口数据的和谐化和标准化将极大增强识别、描述和验证最有前景的生物标志物候选物的能力。
随着衰老生物标志物向临床应用迈进,仍有几个关键问题需要解决。首先,对于生物学年龄在多大程度上可以通过单一生物标志物捕捉到还没有广泛的共识。通过在临床和流行病学研究中使用衰老生物标志物进行进一步验证将有助于确定单一生物标志物还是多个互补的生物标志物哪个效果最佳。一个迫在眉睫的问题是,衰老生物标志物是否以及如何被整合到当前以疾病为中心和疾病特异的健康护理方法中。根据老年科学的理论,向全面预防的转变有可能显著改变公共卫生的情况,并扩大生活中免受疾病和残疾影响的时间,但这需要得到不同利益相关群体的支持,特别是在临床领域。接下来,衰老生物标志物的临床效用仍需通过前瞻性临床试验进行验证,以证明它们确实可以改善患者的感受、功能和生存情况。最后,当专注于基于血液的生物标志物时,需要更多的研究来调查不同器官系统的衰老,以增强对衰老生物标志物的理解和衰老生物标志物的临床潜力。
结论
作者认为将老年科学转化为临床应用必然能够改善医疗保健和扩大健康预期,并同时具有减少医疗开支和改善人口健康的潜力。实现这一目标的一个重要先决条件是获得足够通用的衰老生物标志物,这需要一个验证过程,以将这些生物标志物转化为具有临床价值的、可操作的工具。作者希望,文中所强调的挑战和所提供的建议将有助于推动衰老的生物标志物成为临床工具,从而增强健康管理人员和医疗保健提供者的行动力。