IF=45.5!当AI遇上生命科学,会产生怎样1+1>2效果?恭喜中山大学与阿里云强强联合登顶《Cell》!

文摘   2024-11-10 12:54   上海  


哈喽,亲爱的朋友们~每日一更的我准时来报道啦~

近几天学术圈的大事莫过于诺贝尔物理、化学奖双双花落AI,且都在生命科学领域,AI算是在圈内掀起了一场轩然大波,此外,当AI遇上生命科学除了拿诺奖,还能发顶刊

10月9日,诺贝尔化学奖揭晓花落AI的同时,阿里云与中山大学也强强联合,利用AI登上了CNS顶刊《Cell》正刊!今天就带大家学习下这篇cell~

文章是中山大学医学院施莽教授团队与阿里云李兆融团队合作发表的题为:Using artificial intelligence to document the hidden RNA virosphere的研究论文。

施莽,中山大学医学院教授,博士生导师。国家海外高层次人才(青年项目)、广东省珠江学者、深圳市国家级领军人才、中山大学“百人计划”中青年杰出人才。专注于病原基因组学、新病原发现以及病原体和宿主之间的相互作用研究,并致力于将最前沿的高通量测序技术、机器学习和生物信息学方法应用于病原体研究。以第一或通讯作者在多家国际权威期刊上(《Nature》(2篇)、《Cell》(2篇)、《Nature Microbiology》、《Nature Communications》、《Nature Ecology & Evolution》、《Microbiome》和《PNAS》等)发表142篇SCI论文,总引用率超过17000次。我不得不感慨,又是生物信息学领域的一位大佬呀~ 

该研究利用云计算与AI技术发现了180个超群、16万余种全新RNA病毒,是已知病毒种类的近30倍,大幅提升了业界对RNA病毒多样性和病毒演化历史的认知这么赞的文章,还不点个赞+在看,细细品味?另外我也可以像该研究一样,提供严谨的课题思路设计,为你的毕业/晋升之路保驾护航!有需要的来戳我吧!面面俱到,只等你来~

定制生信分析

国自然指导

科研培训

题目:使用人工智能记录隐藏的RNA病毒圈

杂志:Cell    

影响因子:IF=45.5

发表时间:2024年10


研究背景

RNA病毒广泛存在于地球生态系统中。然而,现有的宏基因组工具在识别高度多样化的RNA病毒时存在局限。

数据来源

收集了全球10,487个环境样本宏转录组数据大部分样本(10,437)于2020年1月16日至8月14日期间从NCBI的SRA数据库(https://www.ncbi.nlm.nih.gov/sra)下载,其余的50个环境样本是课题组亲自采集处理的,样本采自南极洲和中国。其中,9个沉积物样本于2022年1月至2月在南极采集,其余样本于2022年8月至10月在中国浙江、广东、湖北和黑龙江省收集。这些样本经过特殊处理,DNA和RNA同时提取并测序,以便后续验证RNA病毒

研究主要结果

1.深度学习揭示RNA病毒圈的暗物质

开发了一种新的深度学习模型,以识别病毒RNA依赖性RNA聚合酶(RdRPs),取名为LucaProt。235,413个样本的数据集5,979个已知病毒RdRPs的阳性样本+229,434个确认非病毒RdRPs的阴性样本用于模型开发,数据集随机划分为训练集、验证集和测试集,比例为8.5:1:1,分别用于模型训练、模型训练收敛判断、模型性能评估。为了提高模型的辨别能力,阴性样本的选择包括与病毒RdRP在结构或功能上相似的样本。

2.LucaProt与其他病毒发现工具的基准测试

使用相同的数据集和RdRP数据库,将LucaProt与四种常用病毒发现工具(Diamond blast、HMMscan、HH-suite、PalmScan)进行基准测试,结果显示,LucaProt在独立的测试数据集上表现优异,具有极高的准确性(假阳性率仅为0.014%)和特异性(假阴性率为1.72%)。表明LucaProt的AI方法在性能上优于传统生物信息学流程

3.新发现的病毒群的验证和确认

对每个样本进行RNA和DNA的同时测序,以排除其为DNA生物的可能性。经过多轮验证,这些病毒界的暗物质得到了较为确凿的认可

4.基因组结构揭示了RNA病毒圈内的模块化和灵活性

分析潜在RNA病毒基因组的组成和结构,结果提示新发现的病毒中可能存在新的RNA噬菌体类群,若后期得到证实,将反映多组RNA类群的进化可能源于原核细胞宿主。从病毒-宿主共同演化的角度来看,这些结果暗示RNA病毒的进化历史可能与细胞生物一样悠久,甚至更久。

5.RNA病毒的系统发育多样性扩大

利用LucaProt对全球生物环境的10,487份样本进行病毒挖掘,发现了513,134条病毒基因组,代表161,979个潜在病毒种和180个RNA病毒超群(相当于门或纲的分类级别),使RNA病毒超群数量扩容约9倍。其中23个超群无法通过序列同源性方法识别,被称为病毒“暗物质”。一些新识别的超群还显示出高度的系统发育多样性,表明在环境样本中有望发现更多高度多样化的RNA病毒。

文章小结

该研究基于深度学习在病毒发现领域取得了显著成功,标志着病毒发现新纪元的开启。同时,也为公共卫生、生物安全及疫苗研发等领域带来了启示,有助于提升人类应对未来疫情风险的能力。施莽教授说,“希望继续通过跨领域、紧密的科研合作,充分利用云计算和人工智能的优势,解决生命科学领域的重要问题。”AI已经逐渐成为生命科学领域,甚至也是其他自然科学领域非常重要的研究方法与手段,基于AI+病毒学为框架的新研究方法,极大促进与刷新了人们对病毒圈的认知。天气再变,态度不变,热点再变,品质不变。想要课题设计评估或者国科金写作指导的老铁们,速速联系我吧!

报班、生信扫码咨询




转化与基础研究
生信分析、国自然指导、文章写作、科研培训,欢迎关注咨询~
 最新文章