在哺乳动物细胞核中,染色体通过复杂的折叠形成三维基因组结构,而拓扑相关结构域(TADs)是其关键特征之一,这些结构在细胞发育与疾病发生中发挥着重要作用。然而,如何精准检测TAD仍然是一个亟待解决的挑战。尽管已经提出多种检测方法,但由于背景噪声及TAD结构的复杂嵌套关系,准确识别这些结构单元仍然面临困难。
2024年12月2日,中国科学院深圳先进技术研究院资治科研究员团队联合华中农业大学李立教授团队,在《Genome Biology》杂志在线发表了题为“HTAD: a human-in-the-loop framework for supervised chromatin domain detection”的研究成果。研究人员开发了一种基于“人机交互”框架的TAD识别方法,命名为HTAD。该方法提出了“人机交互”(HITL)的创新思路,通过结合主动学习和人工的判断力,显著提升了机器学习模型的性能。
文章上线截图
(点击文末“阅读原文”直达文章链接)
研究团队深入分析了现有的TAD检测技术,发现这些计算方法在局部结构识别上常常存在一致性与可靠性不足的问题。HTAD通过引入人工标注,增强了数据挖掘效果,实现了精确的TAD特征提取与高效的模型训练。HTAD不仅在检测效果上优于现有方法,还成功揭示了复杂TAD结构,为复杂基因组模式的处理提供了一种全新的“人机交互”解决方案。
图1. HTAD:人机交互识别TAD结构域的工作流程
团队首先基于数据,建立了一个包含大量潜在TAD样本的数据库,通过简化方向性指数(sDI)对Hi-C矩阵进行初步筛选。随后,采用主动学习(Active Learning)策略对筛选样本进行有效标注,成功训练出具有高敏感度和高精度的TAD识别模型。实验结果表明,HTAD在TAD边界定位和复杂结构识别方面表现出色,尤其在多个数据集上展现了强大的稳定性与适应性。总之,HTAD的推出为三维基因组结构的研究提供了新工具,提升了分析的准确性和可靠性,未来有望在复杂基因组模式解析中发挥重要作用,推动相关研究的进展。
论文的第一作者是资治科课题组的成员沈威,资治科研究员和李立教授为该论文的通讯作者。该研究得到了国家自然科学基金、华中农业大学自主科技创新基金、广东省合成基因组重点实验室和深圳市合成基因组重点实验室的资助。
课题组简介
资治科课题组主要研究方向包括细胞信号网络的调控原理与合成控制、细胞系统的数学建模和机器学习模型预测。目前,团队长期招聘计算生物学、生物信息学、细胞生物学和分子生物学等方向的博士后和研究助理。有意申请者请将个人简历发送至 zk.zi@siat.ac.cn。