Fundamental Research|尚学群、彭佳杰等:预知疾病易感风险!人工智能驱动的疾病风险预测新时代!

学术   2024-09-23 16:51   北京  

点击上方“Fundamental Research”关注我们

人类基因遗传变异间存在着极为复杂的非线性关联,传统PRS类方法所构建的线性模型难以捕获及描述这些对于疾病易感性预测至关重要的信息。鉴于此,彭佳杰教授的研究提出了一种基于深度学习的疾病基因风险预测方法DeepRisk,该方法利用SNP及基因的生物医学知识来辅助构建深度学习模型,有效地模拟了这些非线性、复杂的相互作用,从而提供了一种更有效的常见疾病风险预测方法。相比传统PRS类方法,DeepRisk方法在预测阿尔茨海默病、炎症性肠病、2型糖尿病以及乳腺癌这四种场景公共疾病上均展现出了最优表现。

中文题目:预知疾病易感风险!人工智能驱动的疾病风险预测新时代!

英文原题:DeepRisk: A deep learning approach for genome-wide assessment of common disease risk

通讯作者:尚学群,西北工业大学

                彭佳杰,西北工业大学

                魏忠钰,复旦大学

关键词:疾病风险预测;深度学习;多基因风险分数;疾病风险;疾病预防

背景介绍

你知道吗?许多疾病的易感性其实与我们的基因变异息息相关。在公共卫生领域,精准识别高风险疾病人群是制定个性化筛查、预防和治疗策略的关键。自2005年以来,全基因组关联研究(GWAS)已经发现了大量的遗传变异,其中大多是单核苷酸多态性(SNPs)。GWAS的出现为探索影响复杂疾病发生的遗传特征提供了极大助力。多基因风险分数(PRS)正是一种基于GWAS的个体遗传风险量化算法,其通过计算多个易感位点的累积效应来量化个体对疾病的易感性程度。已有众多研究证实了PRS的应用价值及临床潜力。

然而,人类基因遗传变异间存在着极为复杂的非线性关联,传统PRS类方法所构建的线性模型难以捕获及描述这些对疾病易感性预测而言极为重要的信息。

方法介绍

DeepRisk模型由两大模块组成(图1):1、基因编码模块,其特征向量的两个维度分别代表风险等位基因(Alternative allele)和非风险等位基因(Reference allele),避免了传统编码方法引入的数量偏差。2、疾病预测模块,由部分连接层及双向长短期记忆网络(BiLSTM)组成。部分连接层结合了生物医学知识,能够捕捉SNP之间及SNP-基因间的复杂关联。BiLSTM层将进一步捕获远距离基因之间的交互信息。该方法利用SNP及基因的生物医学知识来辅助构建深度学习模型,有效地模拟了这些非线性、复杂的相互作用,从而提供了一种更有效的常见疾病风险预测方法。

图1 DeepRisk整体框架

模型是怎样融合先验突变位点、基因知识的?

研究使用了非密集的部分连接层来建模单核苷酸多态性(SNPs)位点及基因间的关联关系。SNP位点与基因具有位置上的从属关系,研究将SNP与其所属的基因及其附近一定距离内的所有基因连接。通过这样的方法,属于同一个基因或彼此之间相较更可能产生交互作用的SNP位点在模型中被连接到了一起。

实验结果

研究团队基于英国生物样本库中约50万人的庞大数据进行了评估。结果显示,与当前最先进的基于多基因风险评分(PRS)的方法相比, DeepRisk方法在预测阿尔茨海默病、炎症性肠病、2型糖尿病以及乳腺癌这四种场景公共疾病上均展现出了最优性能,评估指标取得了最高达8%的提升!

研究团队在英国生物样本库中应用了DeepRisk方法进行风险筛查,结果表明DeepRisk能有效地识别出人群中的高风险个体。以炎症性肠病为例,DeepRisk风险得分最高的4.19%的人口呈现出三倍以上的炎症性肠病易感风险,风险得分最高的0.29%的人口炎症性肠病风险增加超过五倍(图2)。

图2  DeepRisk甄别公共疾病风险。a)炎症性肠病(IBD) DeepRisk分数在UKB数据集人群中的分布及风险阈值情况;b) IBD病例与对照组之间的DeepRisk评分百分位分布;c)基于DeepRisk评分百分位数分组的子人群中,IBD的患病率;d) DeepRisk方法与传统方法在优势比指标上的表现差异。


主要作者简介

尚学群  西北工业大学教授,计算机学院院长。国家级领军人才获得者。主要研究领域数据挖掘,机器学习,大数据,生物信息学等。兼任大数据存储与管理工信部重点实验室副主任,中国人工智能教育联席会理事,工信部“十五五”规划专家组成员,陕西省政协委员等。


彭佳杰  现任西北工业大学长聘教授,博士生导师,计算机学院院长助理,科学智能(AI for Science)交叉研究中心主任。国家级青年人才,全球华人AI青年学者等获得者,主要从事生物信息学、数据挖掘、人工智能以及海量知识工程等方向的研究。

魏忠钰  复旦大学大数据学院副教授、博士生导师,香港中文大学博士,中国中文信息学会情感计算专委会副秘书长,中国计算机学会自然语言处理专委会副秘书长,主要研究多模态大模型和社会计算,发表论文100余篇,担任ACL 2023和 EMNLP 2024高级领域主席。


引用本文

Jiajie Peng, Zhijie Bao, Jingyi Li et al., DeepRisk: A deep learning approach for genome-wide assessment ofcommon disease risk, Fundamental Research, 2024, 4(4): 752-760.


原文链接(复制到浏览器中查看):

https://www.sciencedirect.com/science/article/pii/S2667325824001171

关于Fundamental Research

Fundamental Research是由国家自然科学基金委员会主管、主办的综合性英文学术期刊。创刊于2021年,期刊立足反映国家自然科学基金资助的优秀成果,全方位报道世界基础研究前沿重要进展和重大创新性成果,提升中国基础研究和中国科学家在国际科学界的显示度和影响力,为中外科学家打造一个高端的国际学术交流平台。内容涵盖数学物理、化学化工、生命科学、地球科学、工程与材料科学、信息科学、管理科学、健康医学、交叉科学等领域,设置Article、Review、Highlight、Perspective、Commentary等栏目。期刊已被ESCI、Scopus、DOAJ、PubMed、CAS(美国化学文摘社)、CSCD(中国科学引文数据库)、CSTPCD(中国科技论文与引文数据库)等国内外知名数据库收录。2023年影响因子5.7,位于综合性期刊Q1区。欢迎广大科研工作者关注、投稿、引用!

扫描或长按识别下方二维码关注我们

期刊主页:

www.keaipublishing.com/en/journals/fundamental-research/

文章阅读:

www.sciencedirect.com/journal/Fundamental-Research

投稿系统:

www.editorialmanager.com/fmre

查看更多本期信息,点击文末“阅读原文”,欢迎阅读、下载及引用!

喜欢本篇内容请给我们点个 

在看

点击“阅读原文”了解更多

Fundamental Research
Fundamental Research是国家自然科学基金委员会主管、主办的综合性英文学术期刊,反映国内外基础研究前沿与动态,为科学家打造一个高端的基础研究国际交流平台。涵盖数理、化学、生命、地球、工材、信息、管理、医学、交叉九大科学领域。
 最新文章