2024年是人工智能大放异彩的一年,生成式人工智能技术持续高速发展,深刻影响着我们生活的方方面面。10月,机器学习算法和AI模型设计蛋白质分别获得诺贝尔奖,在AI for Science研究热潮的推动下,越来越多的研究者将目光投向了人工智能与生物学交叉的前沿领域——计算生物学(Computational Biology)。Nature Communications杂志在2024年上线了700余篇广义计算生物学和生物信息学相关的原创性论文,内容涵盖机器学习算法、数学统计模型、遗传学与基因组学、结构生物学与生化研究、流行病学等领域,以及人工智能在生物医学多个应用场景下的基础与转化研究。本系列文章将重点关注为基础生物学研究开发的算法相关论文。所精选的论文旨在促进全球领域相关学者的交流与探讨,无排名或先后顺序之分。数据的可重复性是科学研究的核心,确保研究结果的可信度和稳健性。可重复性使得其他研究者能够验证已有的发现,同时有助于识别潜在问题,改进方法和数据质量。在计算生物学中,数据的复杂性和分析工具的多样性增加了可重复性的挑战,因此规范数据共享、公开分析流程和标准化方法尤为重要。这不仅提升了研究透明度,还为后续研究奠定了坚实基础。以下两篇文章就为这个目标设计了实验室可采纳的方案。1)来自荷兰阿姆斯特丹大学的van Kampen和Mahamune等人介绍了ENCORE,这是一个结构化的框架,它将科研项目的各个组件整合成一个标准化的文件系统,使用文档模板,并利用GitHub进行版本控制。原文链接:https://doi.org/10.1038/s41467-024-52446-8ENCORE的协议结构图(图源:https://doi.org/10.1038/s41467-024-52446-8)2)另一项由英国帝国理工学院的Schilder、Murphy 和 Skene 开发的实现稳定的持续集成与部署的工具箱rworkflows,它通过单一的 R 函数调用简化了 R 包的持续集成和部署,使得自动测试、文档生成和容器化成为可能。原文链接:https://doi.org/10.1038/s41467-023-44484-5Rworkflow软件包 (图源:https://doi.org/10.1038/s41467-023-44484-5)
今年对于单细胞和空间组学分析工具的发展来说,又是一个好工作井喷的年份。从数据整合方面来看,来自威斯康星医学院的Victor Jin 等人研发了一种工具,能够将单细胞Hi-C数据和单细胞转录组数据进行有效整合(https://doi.org/10.1038/s41467-024-52440-0);洛桑大学与路德维希癌症研究所的Santiago J. Carmona等人使用半监督策略整合分析了单细胞转录组数据(https://doi.org/10.1038/s41467-024-45240-z)。为了实现空间数据的更高精度分割,悉尼大学Jean Yang等人研发了一个深度学习模型BIDCell,这是一个基于生物学信息的自监督学习模型,专门用于亚细胞空间转录组学数据的分割(https://doi.org/10.1038/s41467-023-44560-w);此外,北京航空航天大学的邓岳(Yue Deng)和清华大学的戴琼海课题组(Qionghai Dai)引入了一个统一的生成框架soScope,旨在提高从各种空间技术获得的数据质量,增强空间分辨率(https://doi.org/10.1038/s41467-024-50837-5)。山东大学的刘丙强(Bingqiang Liu)和俄亥俄州立大学的马勤(Qin Ma)等人提出了一种可解释的图表示方法,通过图傅里叶变换探索组织生物学和功能(https://doi.org/10.1038/s41467-024-51590-5)。soScope框架使用生成式技术,有效增强了空间分辨率
(图源:https://doi.org/10.1038/s41467-024-50837-5)
基因表达和基因功能分析工具为发现新的生物学见解提供了新的方法。清华大学杨雪瑞课题组(Xuerui Yang)基于可变剪接景观信息对单细胞进行聚类,探究RNA剪接的异质性(https://doi.org/10.1038/s41467-024-46480-9)。洛桑联邦理工学院D. M. Suter介绍了一种基于基因表达存储的计算工具,用于从单细胞RNA测序(scRNA-seq)数据集中识别小型细胞谱系。(https://doi.org/10.1038/s41467-024-47158-y)。加州大学尔湾分校的Axel A. Almet 和 Qing Nie 提出了一种新的细胞通讯“Chat”预测方法CrossChat,该方法能够检测细胞间通讯中的全局和局部层次结构(https://doi.org/10.1038/s41467-024-54821-x)。生成模型在生成、模拟和合成单细胞数据集方面非常有用。麦吉尔大学Amin Emad 模拟了稳态和瞬态单细胞数据集(https://doi.org/10.1038/s41467-024-48516-6)。同样是麦吉尔大学的丁俊(Jun Ding)通过整合大规模bulk测序数据和从少数代表性样本中获得的单细胞测序数据,推断出大型群体中的单细胞特征(https://doi.org/10.1038/s41467-024-50150-1)。机器学习方法被应用于蛋白质科学中,以分析和预测蛋白质的结构、功能、相互作用和动态变化。例如,中山大学的杨跃东(Yuedong Yang)课题组通过在ESMFold预测的结构上应用几何图学习(geometric graph learning)来预测酶的功能(https://doi.org/10.1038/s41467-024-52533-w)。BioGeometry的唐建(Jian Tang)等人开发了一种可预训练的几何图神经网络,用于预测抗体亲和力(https://doi.org/10.1038/s41467-024-51563-8)。慕尼黑工业大学的Burkhard Rost 比较了三种最先进的蛋白质语言模型(ESM2、ProtT5、Ankh)的微调效果,并提升了在多种任务中的预测性能(https://doi.org/10.1038/s41467-024-51844-2)。爱丁堡大学的Giovanni Stracquadanio 使用变分自由能近似方法,通过学习蛋白质的序列和热力学景观,来生成稳定的蛋白质功能突变体(https://doi.org/10.1038/s41467-024-54814-w)。GearBind用于计算抗体亲和性 (图源:https://doi.org/10.1038/s41467-024-51563-8)
Nature Communications期刊也为理论生物学和系统生物学研究者提供了展示研究成果的舞台,热爱数学建模的学者同样能够找到施展才华的机会!虽然模型未必始终完全准确,但它们能够为理解反应动力学和系统动态提供重要的洞察。例如,荷兰拉德堡德大学的Wilhelm T. S. Huck 使用了最优实验设计(Optimal Experimental Design, OED)算法,结合训练数据的迭代设计,来控制复杂的酶促反应网络和反应动力学(https://doi.org/10.1038/s41467-024-45886-9)。爱丁堡大学的Ramon Grima 使用了一种高阶线性映射近似方法,该方法通过一个更简单反应系统的分布来近似复杂基因调控网络中蛋白质或mRNA数量的分布,以解决随机基因网络动态问题(https://doi.org/10.1038/s41467-024-50716-z)。德克萨斯大学达拉斯分校的Tian Hong展示了广泛的生化反应网络能够在没有施加反馈的情况下产生图灵模式(Turing patterns)(https://doi.org/10.1038/s41467-024-52591-0)。新的数据挖掘工具揭示了我们基因中隐藏的信息,这些信息通过分析测序数据得以呈现。关于Oxford纳米孔测序技术,由宾夕法尼亚大学的Kai Wang等人开发了一个用于甲基化检测的信号处理和深度学习框架(https://doi.org/10.1038/s41467-024-45778-y)。无独有偶,上海交通大学的Xiang Yu团队使用迁移学习策略,使得模型能够识别多种类型的RNA修饰(https://doi.org/10.1038/s41467-024-48437-4)。宏基因组方面也有可喜的进展,荷兰乌特勒支大学的Bas E. Dutilh 和 F. A. Bastiaan von Meijenfeldt 整合了来自宏基因组组装和连续序列(contigs)的分类学信息,以改进宏基因组的reads注释和分类(https://doi.org/10.1038/s41467-024-47155-1)。表观组学方面,澳洲国立大学的E Eyras 和同事们提出了一种方法,可以在同一个样本中以单分子分辨率预测两种修饰类型m6A 和 m5C,他们展示了在细胞系和组织转录组中单个mRNA分子上m6A和m5C的共现现象(https://doi.org/10.1038/s41467-024-47953-7)。纽约纪念斯隆凯特琳癌症中心的Christina S. Leslie 提出了一种深度学习模型,该模型能够仅从单细胞ATAC测序数据中预测3D接触图(3D contact maps)(https://doi.org/10.1038/s41467-024-53628-0 )。北京大学的高歌课题组(Ge Gao)开发了一个混合模型,基于序列、转录因子结合信息预测特定组织中的基因表达水平,并量化结构变异对特定组织转录组的影响程度(https://doi.org/10.1038/s41467-024-55392-7)。ChromaFold 仅通过 scATAC-seq 预测 3D 接触图(图源:https://doi.org/10.1038/s41467-024-53628-0)
Nature Communications欢迎那些为非计算背景的科学家开发的实验数据分析的软件、平台和工具的论文,这些软件对用户非常友好,提供了完善的用户手册和样例分析, 可以有效减轻科学家们在实验数据分析中的负担,也可以帮助非计算背景的科学家更加高效地完成数据处理和分析任务。波恩大学的Lorenzo Bonaguro及其同事开发了cyCONDOR,这是一个易于使用的计算框架,用于分析高维流式细胞术数据。cyCONDOR软件包包括引导预处理、聚类、降维和机器学习算法,以及伪时间分析和批次整合等高级功能(https://doi.org/10.1038/s41467-024-55179-w)。7. 病理学、药学与治疗方法的开发 - 强调应用性,但不仅仅是应用从临床转化方面,浙江大学良渚实验室的沈宁(Ning Shen)等人开发了SpliceTransformer,这是一个用于预测与人类疾病相关的组织特异性RNA剪接的模型(https://doi.org/10.1038/s41467-024-53088-6)。杜克大学的Nicole A. Pelot介绍了一种方法,该方法使用机器学习技术来大规模并行估计和优化神经纤维对电刺激的响应(https://doi.org/10.1038/s41467-024-51709-8)。华盛顿大学的Georg Seelig 通过使用深度学习优化5'非翻译区(5'UTR),强调了基于模型的序列设计在mRNA治疗中的潜力(https://doi.org/10.1038/s41467-024-49508-2)。SpliceTransformer预测与人类疾病相关的组织特异性RNA剪接
(图源:https://doi.org/10.1038/s41467-024-53088-6)
从人工智能辅助药物设计(AIDD)方面,中国科学院上海药物研究所的郑明月(Mingyue Zheng)团队利用深度表征学习(deep representation learning)来分析化学物质处理后的转录组数据,以此进行基于表型的药物发现,并强调了这种方法在识别有效药物复合物方面的潜力(https://doi.org/10.1038/s41467-024-49620-3)。北京微软研究院科学人工智能团队开发了一种药物设计方法,该方法通过化学语言模型实现了目标感知的分子生成(https://doi.org/10.1038/s41467-024-53632-4)。机器学习通过自动化解释复杂的视觉数据,增强了显微镜成像分析效果,使得对生物结构和过程的洞察更快、更准确。伊利诺伊大学厄巴纳-香槟分校的Pengfei Song展示了具有上下文感知能力的深度学习模型如何实现高浓度微泡(high concentration microbubbles)在超声显微镜中的高效定位(https://doi.org/10.1038/s41467-024-47154-2)。韩国浦项科技大学的Chulhong Kim团队展示了一种基于深度学习的可解释的无监督跨域转换方法,该方法能够将低分辨率、未标记的中红外光声显微镜图像转换为类似共聚焦显微镜的虚拟荧光染色的高分辨率图像(https://doi.org/10.1038/s41467-024-55262-2)。除了上述主题之外,在新的一年(2025年),Nature Communications杂志将发表一个关于DNA数据存储与计算技术的专题论文合集。欢迎相关领域学者关注杂志的官方主页。Nature Communications杂志将每日更新最新上线的计算生物学和生物信息学的原创科研论文,请关注下方链接浏览与阅读:https://www.nature.com/subjects/computational-biology-and-bioinformatics/ncomms制版人:十一
BioART战略合作伙伴
(*排名不分先后)
转载须知
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。