各位小伙伴们大家好呀,光宝又来为大家提供高分生信新思路啦~
随着人工智能化时代的发展,机器学习(machine learning)如今也是火起来了,在生物医学领域的应用也进展神速~在pubmed网站检索机器学习,今年才过去一半,发文量就已经达22599篇,可谓大爆发啊!从基因组学到药物开发,从疾病诊断到生态保护均有其身影。
今天光宝为大家带来一篇发表在Nature Genetics上的高分佳作,该研究的表型和关联分析使用EHR和来自UKB,All of Us biobank和BioMe 生物库的遗传数据进行,基于机器学习的复杂疾病数字标记可以增强罕见编码变异的遗传发现,扩展了我们对冠状动脉疾病(CAD)遗传病因学的理解。小伙伴是否也想知道这篇文章如何拿下31+高分的呢?那就一起来学习一下吧~
1、机器学习上大分:围绕随机森林算法构建基于机器学习的冠状动脉疾病计算机模拟评分(ISCAD)作为计算机标记物,可潜在地捕获疾病病理生理学的其他轴,揭示在遗传关联研究中调节这些过程的其他遗传机制,这些遗传关联是由有助于机器学习模型的特征决定的,未来也可以使用单独的因果特征构建疾病的计算机标记;
2、多个数据库加持:从UKB(UK Biobank),All of Us Research Program和BioMe生物库中获得了604,915名个体的外显子组序列,大规模的公开数据增加了分析结果的可靠性。
“大佬”机器学习,联合多个数据库真的是上高分的好搭档啊!0实验好复现,Nature大子刊你尊嘟没有心动吗!学会了这个思路,换种临床疾病也能冲! PS:也想用机器学习+公共数据库这个组合发高分SCI的小伙伴就来找光宝吧~光宝这里可是有超多可复现的创新思路和绝佳的生信“CP”佳作呢!快来扫码联系光宝吧!
定制生信分析
云服务器租赁
(加微信备注99领取试用)
题目:外显子组序列分析识别出与基于机器学习的冠状动脉疾病标志物相关的罕见编码变体
杂志:Nature Genetics
影响因子:IF=31.7
发表时间:2024年6月
研究背景
冠状动脉疾病(CAD)是全球发病率和死亡率的主要原因,GWAS确定罕见和超罕见的CAD编码能揭示潜在的治疗靶点。然而,很少有大规模的CAD外显子组测序研究已经进行,只有有限的成功,发现罕见的CAD编码变异。因此,需要新的表型分析方法,以提高基因发现的努力,在罕见的变异相关性研究中进行的电子健康记录(EHR)为基础的遗传学研究。
研究思路
在本研究中,作者测试了来自英国生物库,All of Us Research Program和BioMe生物库的604,915名个体的外显子组序列中罕见和超罕见编码变体与基于机器学习的冠状动脉疾病计算机模拟评分(ISCAD)的关联,并评估17个外显子组范围内的重要变异和基因与67个生物标志物特征、461个表型和动脉粥样硬化临床表现的相关性。研究流程如图1。
图1 研究设计示意图
研究结果
1.ISCAD的构建
作者在三个数据库中拟合机器学习模型。结果表明CAD病例中ISCAD的分布与MI病例的分布高度重叠,而对照组显示出比CAD病例更低的ISCAD。ISCAD显示与所有生物库中的CAD进展、严重程度和诊断不足相关,表明ISCAD捕获了队列的潜在CAD状态,作为遗传关联分析的定量表型(图1)。
2.罕见和极罕见编码变体关联总结
作者在荟萃分析中确定了与ISCAD相关的11个基因中的12个罕见或超罕见编码变体(表1),鉴定了7个极端基因(表2)。与使用常规CAD状态表型的四种变体和基因相比,八种变体和基因在使用ISCAD的All of Us和BioMe队列中显示出一致的作用方向和标称显著性(表1和2)。观察到ISCAD与罕见编码变异发现的关联性较强,与ISCAD相关的变异可能涉及疾病的正交机制,表明计算机模拟评分捕获了与驱动机器学习模型的临床特征相关的遗传定义机制。
表1 与ISCAD相关的罕见和超罕见编码变体
表2 具有与ISCAD相关的极端有害编码变体聚集的基因
3.CAD的已知罕见编码变体关联
与CAD状态表型相比,ISCAD在6个变体水平和7个基因水平测试中表现出等同或更强的相关性。ANGPTL4,APOB,APOC 3和LPL的关联在ISCAD中达到了外显子组范围的显著性,且大多数罕见变异与ISCAD的关联与CAD状态的遗传关联结果在方向上一致。此外,极端有害的APOB变体(仅由PTV组成)赋予ISCAD风险。
4.ISCAD基因座的既往证据
作者考虑了9条独立证据,为从变体和基因水平关联测试中鉴定的17个ISCAD基因定义了4个等级(图2)。第1层基因组有强有力的证据表明它们在CAD中的作用(3个基因);第2层组基因具有CAD的中等强遗传证据(8个基因);具有中度遗传证据支持其在CAD中作用的第3层组基因有3个ISCAD基因;第4层基因显示了CAD的额外遗传证据,可能提示CAD风险的替代途径。
图2 支持17个与ISCAD相关的基因在CAD生物学中的作用的证据
5.ISCAD基因座与其他表型的关联
接下来,作者对ISCAD基因进行了全表型关联分析,以评估这些基因对其他表型的作用。10个ISCAD基因具有与58个生物标志物相关的罕见编码变体和与5个phecode相关的罕见编码变体,其中LIPG中的rs77960347变体与缺血性心脏病风险降低有关,而SOS 2中的rs72681869变体可预防高血压。此外,6个ISCAD基因在32个独特的生物标志物和5个独特的phecode中显示出过量的超稀有编码变体。
6.与ISCAD相关的生物过程
作者用ISCAD测试来自分子特征数据库 30 的50个标志基因集中的极端有害变体来评估CAD中涉及的候选生物过程,发现了7个外显子组范围内的显著基因集(表3)。
表3与ISCAD相关的具有极度有害编码变体聚集的生物过程
7.已知CAD基因中的极端突变的贡献
作者测试了ISCAD与321个CAD基因 3 中的极端有害变体的聚集体的关联,揭示了所有321个CAD基因中存在过量的ultrarare编码变体。但去除本研究中发现的7个已知基因后,我们仍然观察到了强相关性。
文章小结
跟着光宝看完了全文,是不是超级心动了!全文就1图3表0实验纯分析,就收获了31+高分文章,可见只要思路清晰分析到位,高分文章不在话下!当然这也是机器学习和公共数据库的功劳呀~小伙伴们快学起来呀!复现这个思路,你也可以拿下Nature子刊!如果你也对机器学习感兴趣的话,想应用到自己的研究中但苦于没有思路不知如何下手,就来联系光宝吧~光宝不仅可以为您提供超多可复现的思路,还可以为您量身定制生信方案~
生信光公众号持续为大家带来最新生信思路,更多创新性分析思路请查看往期推荐。想复现这种思路或者定制更多创新性思路欢迎直接call光宝,我们团队竭诚为您的科研助力!
文献思路复现
定制生信分析
服 务 器 租 赁
扫码咨询光宝
【往期推荐】