JGG|南京大学陈迪俊团队开发深度学习模型Osei揭示水稻基因组的调控序列密码

文摘   2024-12-26 08:09   湖南  

水稻(Oryza sativa)是保障全球粮食安全的重要农业作物。水稻基因组中的调控元件(包括启动子、增强子、沉默子和绝缘子)在基因表达调控中扮演着核心角色,由于与农艺性状密切相关的大量遗传变异都分布在这些调控区域,研究调控元件的功能对水稻性状的遗传改良至关重要。然而,揭示这些元件的调控密码——即它们如何通过序列信息精确地调控基因功能,一直是生物学领域最具挑战性的问题之一。

2024年12月18日,Journal of Genetics and Genomics在线发表南京大学陈迪俊团队题为“Deep learning on chromatin profiles reveals the cis-regulatory sequence code of the rice genome”的研究论文。该研究开发了一种名为Osei的深度学习模型(https://github.com/compbioNJU/Osei),用于分析和预测水稻基因组中多种染色质特征包括转录因子结合位点组蛋白修饰信号和染色质开放区域等覆盖整个基因组的80%以上该模型不仅能够精准分类调控序列还可以量化遗传变异对调控活性变化及其对农艺性状的影响为未来设计人工合成调控序列提升作物性能提供新思路

点击图片|阅读原文




相比于现有模型,Osei具有更广泛的数据覆盖范围,使用了超过850万条调控峰值数据,包括31种转录因子结合特征、373种组蛋白修饰信号和63种染色质开放性特征,这些数据集主要来自研究团队先前开发的ChIP-Hub平台。Osei模型由三个连续部分组成:具有线性和非线性路径的卷积网络,用于高效训练和复杂的交互学习;残差扩张卷积层,用于在不降低空间分辨率的情况下扩展感受野;以及空间基函数变换层,用于有效集成空间信息和降维。此外,Osei模型展现了出色的跨物种预测能力:基于基因组序列信息,在预测其它单子叶植物(如玉米)和双子叶植物(如拟南芥)的染色质状态时,其预测信号的分布与对应物种的实验数据高度吻合。这不仅体现了该模型在跨物种应用中的鲁棒性和迁移学习能力,也揭示了不同植物物种间可能共享的基因调控密码,为进一步解析植物基因组的进化与功能保守性提供了新视角。为方便研究人员使用,作者团队还开发了一个界面友好的在线数据平台(https://biobigdata.nju.edu.cn/Osei/),用户可以轻松访问并探索Osei模型的预测结果,进一步推动其在植物基因组学研究中的应用。

Osei模型结构示意图

作者简介


南京大学生命科学学院硕士研究生周欣恺(已毕业)和阮忠豪为该论文共同第一作者。南京大学生命科学学院、医药生物技术全国重点实验室陈迪俊副教授为通讯作者。相关工作得到国家自然科学基金委面上项目资助。


引用本文


Xinkai Zhou, Zhonghao Ruan, Chenlu Zhang, Kerstin Kaufmann, Dijun Chen. (2024). Deep learning on chromatin profiles reveals the cis-regulatory sequence code of the rice genome. Journal of Genetics and Genomics.

DOI10.1016/j.jgg.2024.12.007


来源:JGG遗传学报


生物信息与育种
致力将生信、AI、大数据、云计算等技术应用于现代生物育种
 最新文章