水稻(Oryza sativa)是保障全球粮食安全的重要农业作物。水稻基因组中的调控元件(包括启动子、增强子、沉默子和绝缘子)在基因表达调控中扮演着核心角色,由于与农艺性状密切相关的大量遗传变异都分布在这些调控区域,研究调控元件的功能对水稻性状的遗传改良至关重要。然而,揭示这些元件的调控密码——即它们如何通过序列信息精确地调控基因功能,一直是生物学领域最具挑战性的问题之一。
2024年12月18日,Journal of Genetics and Genomics在线发表南京大学陈迪俊团队题为“Deep learning on chromatin profiles reveals the cis-regulatory sequence code of the rice genome”的研究论文。该研究开发了一种名为Osei的深度学习模型(https://github.com/compbioNJU/Osei),用于分析和预测水稻基因组中多种染色质特征,包括转录因子结合位点、组蛋白修饰信号和染色质开放区域等,覆盖整个基因组的80%以上。该模型不仅能够精准分类调控序列,还可以量化遗传变异对调控活性变化及其对农艺性状的影响,为未来设计人工合成调控序列、提升作物性能提供新思路。
点击图片|阅读原文
相比于现有模型,Osei具有更广泛的数据覆盖范围,使用了超过850万条调控峰值数据,包括31种转录因子结合特征、373种组蛋白修饰信号和63种染色质开放性特征,这些数据集主要来自研究团队先前开发的ChIP-Hub平台。Osei模型由三个连续部分组成:具有线性和非线性路径的卷积网络,用于高效训练和复杂的交互学习;残差扩张卷积层,用于在不降低空间分辨率的情况下扩展感受野;以及空间基函数变换层,用于有效集成空间信息和降维。此外,Osei模型展现了出色的跨物种预测能力:基于基因组序列信息,在预测其它单子叶植物(如玉米)和双子叶植物(如拟南芥)的染色质状态时,其预测信号的分布与对应物种的实验数据高度吻合。这不仅体现了该模型在跨物种应用中的鲁棒性和迁移学习能力,也揭示了不同植物物种间可能共享的基因调控密码,为进一步解析植物基因组的进化与功能保守性提供了新视角。为方便研究人员使用,作者团队还开发了一个界面友好的在线数据平台(https://biobigdata.nju.edu.cn/Osei/),用户可以轻松访问并探索Osei模型的预测结果,进一步推动其在植物基因组学研究中的应用。
Osei模型结构示意图
作者简介
南京大学生命科学学院硕士研究生周欣恺(已毕业)和阮忠豪为该论文共同第一作者。南京大学生命科学学院、医药生物技术全国重点实验室陈迪俊副教授为通讯作者。相关工作得到国家自然科学基金委面上项目资助。
引用本文
Xinkai Zhou, Zhonghao Ruan, Chenlu Zhang, Kerstin Kaufmann, Dijun Chen. (2024). Deep learning on chromatin profiles reveals the cis-regulatory sequence code of the rice genome. Journal of Genetics and Genomics.
DOI:10.1016/j.jgg.2024.12.007
来源:JGG遗传学报