电子科大邹权团队 | SBSM-Pro:用于蛋白质序列分析的支持生物序列机
文摘
科技
2024-11-15 12:00
北京
研究团队
王一争,翟祎笑,丁漪杰,邹权:电子科技大学基础与前沿研究院,电子科技大学长三角研究院(衢州)
文章下载
Yizheng WANG, Yixiao ZHAI, Yijie DING & Quan ZOU. SBSM-Pro: support bio-sequence machine for proteins. Sci China Inf Sci, 2024, 67(11): 212106, doi: 10.1007/s11432-024-4171-9
蛋白质在生物系统中起着至关重要的作用。机器学习算法可以用于蛋白质分类,帮助研究人员理解和分析生物序列,进而指导生物实验和生物技术应用。通过对蛋白质功能和翻译后修饰的精确识别,科学家可以获得关键的生物信息,从而推动遗传学、病理学等多个领域的研究。本文提出了一个名为SBSM-Pro的新模型,该模型专为生物序列分类设计。SBSM-Pro的主要特点包括:1. 氨基酸分组:基于氨基酸的物理化学性质对其进行分组,并使用光谱聚类和字典编码重新编码蛋白质序列。2. 序列相似性测量:采用Levenshtein距离和Smith-Waterman评分来测量蛋白质序列之间的相似性。3. 多核学习(MKL):引入了一种新的多核学习方法(HCKDM-MKL),结合多种相似性核,优化蛋白质分类过程。4. 支持向量机(SVM):使用预计算的核进行分类预测,以提高模型的准确性和效率。(1) 通过氨基酸理化性质-光谱聚类-字典(PSD)方法,对氨基酸进行分组,减少了序列比对中的噪声。(2) 提出了HCKDM-MKL方法,融合了多种相似性核,增强了模型对蛋白质数据的处理能力。 (3) 使用支持向量机与预计算核结合,确保了高效精准的蛋白质分类。本文在十个不同的蛋白质分类数据集上验证了SBSM-Pro的性能。这些数据集涵盖了蛋白质功能识别和翻译后修饰(PTM)识别。实验结果表明,SBSM-Pro在所有数据集上的分类准确率显著高于现有方法。SBSM-Pro展示了在蛋白质分类领域的卓越性能,提供了一种新的生物序列分类方法,为未来的研究和应用提供了新的方向。