中山大学这篇cell是要冲“诺奖”!?领军人才+人工智能领域,So年轻So帅,生信人不要错过“神仙导师”!数据挖掘发顶刊!

文摘   2024-11-02 19:00   上海  


人工智能(AI)刚得完双诺奖,现在又被它给装到了

既然AI能得物理和化学奖,那医学奖也不是不可能!

(这样,所有理科生的吐槽机会就均等了,哈哈。)

本月,来自中山大学团队的一篇cell就相当亮眼!

中山大学施莽团队与阿里云李兆融团队构建了深度学习模型---LucaProt,用来从海量的测序数据中识别出RNA病毒,发现16万余种全新RNA病毒,是已知病毒种类的近30倍!成果卓越!

好了,下面请全体同学起立,有请男神---中山大学施莽教授就位!

(图片来源百度百科,侵删)

这么年轻,这么帅,还这么有才!!!(真是既生瑜,何生亮啊!。。。轻点扔。。。)

施莽,中山大学医学院教授,国家海外高层次人才计划青年项目,广东省珠江学者(青年项目),深圳市国家级领军人才获得者。专注于病原基因组学、新病原发现以及病原体和宿主之间的相互作用研究,并致力于将最前沿的高通量测序技术、机器学习和生物信息学方法应用于病原体研究。相关成果以第一作者/通讯作者在 Cell (2022,2024), Nature (2016, 2018),Nature Microbiology (2022), Nature Communications (2023), Microbiome (2022), Emerging Microbes & Infection (2020, 2022, 2023)等发表。(搞生信的同学,可以往这个课题组挤挤,技术好,产出高

让我们回到这篇cell文章。根据已知病毒的核酸序列,进行“序列同源性比对”鉴定新病毒,虽然常用,但是面对变异性强的RNA病毒,则经常失效。施莽教授团队利用深度学习模型构建LucaProt算法,通过对已有序列的学习,制定新的病毒筛选标准,在病毒识别中,表现出极高的准确性和特异性。

大道至简,重剑无锋!本文中用到了全球生物环境样本的10,487份RNA测序数据进行挖掘,但是其中10,437例都来自NCBI的公共数据,只有50例是自测样本。这样的数据分析也能发到CELL顶刊!以小博大,这也是生信的核心魅力!!!

机器学习、深度学习是当前的风口,与生信数据挖掘也是天然契合的!无论你是做哪个课题方向,AI+生信分析都能显著提高创新性,实现以小博大,0实验发文。小伙伴们如果不会落地,那就不要迟疑,滴滴馆长,立即获得性价比极高的个性化思路评估和数据分析服务!

定制生信分析

云服务器租赁

加好友备注“99”领取试用


题目:使用人工智能筛选隐藏的RNA病毒

杂志:Cell

影响因子:45.5

发表时间:2024年103

研究背景

RNA病毒广泛感染各类生物,在全球生态系统中扮演着重要角色。过去的研究依赖于RNA依赖性RNA聚合酶RdRP序列分析来鉴定新病毒,但仍有一些高度分化的RdRP则难以被鉴定。因此需创新策略以全面识别新的RNA病毒

研究结果

1. 深度学习揭示全新RNA病毒

作者基于NCBI SRA、CNGBdb等数据库获取了10,437份RNA测序数据进行挖掘,进行了广泛的RNA病毒多样性研究。识别了超过13.68亿个重叠群和8.72亿个预测蛋白。利用“LucaProt”深度学习模型和传统聚类方法“ClstrSearch”,作者准确鉴定了病毒RNA依赖性RNA聚合酶RdRP,展现了模型的高精确度和鲁棒性。

结合两种策略,作者识别了513,134个RNA病毒重叠群,代表161,979个潜在病毒种类,及180个超群。通过自动比对RdRP序列,LucaProt新鉴定了70,458种独特病毒种类。

2,LucaProt:基于数据驱动的深度学习模型

本研究构建了LucaProt深度学习模型,包含五个模块:Input、Tokenizer、Encoder、Pooling和Output。输入模块接收氨基酸序列;标记器将序列转换为模型可理解格式;编码器生成序列和结构矩阵;池化模块降维并提取特征;输出模块预测样本是否为病毒RdRP。

研究构建了包含235,413样本的数据集,优化模型精准度和泛化性。集合了5,979个病毒RdRP和229,434个非病毒RdRP样本,利用Transformer框架和结构特征,LucaProt在预测病毒RdRP上超越传统方法,有效整合序列与结构信息。

3,LucaProt的性能和计算效率评估

与四款病毒探测工具对比,LucaProt保持低假阳性率,召回率最高。在计算效率测试中,LucaProt处理多长度数据集的平均耗时更优

文章总结

除了本文的RNA病毒方面,在疫苗设计、药物开发等领域,AI也在大放异彩!

本研究发现的海量新RNA病毒,堪称该领域的一个重要里程碑。此处只简单展示,更多文章内容,请回复关键词获取全文查看。

利用机器学习/深度学习已是当前生信领域的重要工具,无论是临床研究还是基础分析,通过AI来创新是性价比最高的思路。AI+生信分析都能显著提高创新性,实现以小博大,0实验发文。小伙伴们如果不会落地,那就不要迟疑,滴滴馆长,立即获得性价比极高的个性化思路评估和数据分析服务!

馆长有话说

馆长会持续为大家带来最新生信思路,也可以提供特色数据库构建、免费思路评估、付费生信分析和方案设计以及实验项目实施等服务,对数据库构建和生信分析感兴趣的朋友可以咨询馆长哦!

生信分析

方案设计

服务器租赁

孟德尔随机化

网络药理学

单细胞测序

临床公共数据库分析

往期推荐

1.9分“神刊”再现!又快又“水”,沾边就收!不要钱,速度来捡漏!

2.JAMA子刊顶级模板!北大团队新作:NHANES数据库,选题就要“接地气”!是时候卷一卷同门啦!!

3.赢麻了!独到的思路加上简单的分析就能发12.5分!华西医院团队这篇NHANES可复现性极强!快来学!

生信图书馆
深入解读最新生信文献,分享研究思路和方法,提供专业生信分析服务,帮助您把握生物信息学的最新动态
 最新文章