分类准确率达99%，山大团队提出基于对比学习的基因数据分类方法

学术 2024-10-31 11:50 北京

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑 | 萝卜皮

深度神经网络模型的快速进步显著增强了从微生物序列数据中提取特征的能力，这对于解决生物学挑战至关重要。然而，标记微生物数据的稀缺性和复杂性给监督学习方法带来了巨大的困难。

为了解决这些问题，山东大学的研究人员提出了 DNASimCLR，这是一个专为高效基因序列数据特征提取而设计的无监督框架。

DNASimCLR 利用卷积神经网络和基于对比学习的 SimCLR 框架，从不同的微生物基因序列中提取复杂特征。预训练在两个经典的大型未标记数据集上进行，包括宏基因组和病毒基因序列。后续分类任务通过使用之前获得的模型对预训练模型进行微调来执行。

DNASimCLR 的多功能性使其在涉及新基因序列或以前未见过的基因序列的场景中表现良好，使其成为基因组学中各种应用的宝贵工具。

该研究以「DNASimCLR: a contrastive learning-based deep learning approach for gene sequence data classification」为题，于 2024 年 10 月 14 日发布在《BMC Bioinformatics》。

即使是目前最全面的微生物基因数据库也存在数据和标签缺失的问题，这严重限制了许多监督式深度学习方法的有效性。解决这一不完整性是一项迫切需要关注的挑战。

本文针对微生物基因序列数据的表征学习问题，提出了一种基于对比学习的神经网络特征提取方法。

图示：DNASimCLR 框架概述。（来源：论文）

DNASimCLR 的工作流程主要包括两个阶段：对比学习的预训练阶段和分类网络的微调阶段。在预训练阶段，研究人员使用 One-Hot 编码方法将未标记的原始 DNA 基因序列数据转换为适合机器学习的格式。

在预训练阶段，对 One-Hot 编码数据进行随机掩码处理，生成训练数据集。在此阶段，研究人员采用 SimCLR 框架模型来获取未标记序列的向量表示。该过程通过对比学习将基因序列嵌入到固定维度的高维空间中。

在微调阶段，利用预训练阶段得到的特征提取模型，对标注数据采用不进行掩蔽操作的One-Hot编码方法进行编码。研究人员继续进行分类预测的训练，最终得到一个能够确定 DNA 序列类别的分类网络

图示：具有不同读取长度的 sr-WGS 和 lr-WGS 数据的模型准确度结果。(来源：论文)

在性能评估方面，该团队对不同来源的基因组数据库进行了测试。

研究人员用 DNASimCLR 对不同长度（250 bp、500 bp、1000 bp、1300 bp 和 10,000 bp）的读段序列进行了分类和短序列病毒宿主预测，实现了 99% 的显著分类准确率，实现了显著的准确性提升。

并且，这项研究的意义是多方面的。

首先，首次将对比学习应用到微生物基因序列数据的表征学习中，发展了一种新的针对基因数据的数据处理方法，突破了传统SimCLR方法仅适用于图像数据的局限性，拓展了对比学习的应用领域。

其次，该研究提出的微生物基因序列数据分类器在性能上表现出了大幅的提升，为卷积神经网络方法在处理生物数据方面的发展开辟了新的机遇。

第三，由于预训练阶段和分类阶段的分离，该方法可以轻松应用于其他基因组学问题，例如蛋白质功能预测和新病毒检测。

总之，DNASimCLR 代表了利用自监督学习模型进行微生物基因序列特征提取的先进探索。这种方法有可能在生物信息学领域引入创新概念，提供通过卷积神经网络获取生物序列特征的途径。

论文链接：https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-024-05955-8

人工智能 × [ 生物神经科学数学物理化学材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。

http://mp.weixin.qq.com/s?__biz=MzI3MjM3ODk0NQ==&mid=2247503552&idx=2&sn=1aa3f75e95ba7125da7fbae2625bcd90

ScienceAI

机器之心旗下媒体，关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展。

最新文章

普林斯顿王梦迪团队提出蛋白水印方法，助力AI蛋白生成的版权保护与安全

贝佐斯、OpenAI领投，给机器人装AI「大脑」的Physical Intelligence获4亿美元融资

精准预测RNA可变剪接，浙大多模态深度学习模型SpTransformer登Nature子刊

创新能力超越AI Scientist，上海AI Lab「AI 科研团队」VirSci来了

类GPT化学语言模型，9秒生成100种化合物，微软AI药物设计平台登Nature子刊

登Nature，AI设计DNA开关，MIT团队实现精确的细胞控制

分类准确率达99%，山大团队提出基于对比学习的基因数据分类方法

准确、高效、物理有效，中科大、北大提出「两段式」分子对接统一框架DeltaDock

丹麦首台AI超级计算机，NVIDIA技术加持，服务于量子计算、清洁能源、生物技术等领域

TMI2024 | 阿大、同济等提出TraCoCo，用于3D医学图像半监督分割

科学实验室走向全自动化，机器人融合AI，加速科学发现，Science子刊观点

不懂AI、不会编码？如何轻松拿捏AlphaFold准确预测蛋白结构

Nature 子刊，化学语言模型自动设计多靶点配体

AI 驱动化学空间探索，大语言模型精准导航，直达目标分子

AI搞科研？西湖大学发布「AI科学家」Nova，效果比SOTA竞品提升2.5倍

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

1.1亿个结构DFT计算，Meta推出OMat24，AI驱动材料发现开源化

Nature子刊，北大陈语谦团队提出多模态单细胞数据整合和插补的深度学习方法

速度提高1000万倍，AI快速准确预测等离子体加热，助力核聚变研究

从结构准确预测蛋白质功能，东北大学「CNN+GCN」统一框架，优于现有方法

仅8B参数，可与GPT-4媲美，上交大团队构建多语言医学大模型

准确预测蛋白质功能，中山大学基于几何图学习的酶工程新方法

几秒完成化学反应，每天筛选上万反应，浙大、之江全自动高通量AI「机器人」

中国科学院核聚变最新进展，AI 加速等离子体参数预测

Nature子刊，香港浸大、英伟达团队多模态深度语言模型，用于复杂的宏基因组研究

AI 驱动的「科学搜索引擎」如何加速你的课题进度

水和算法有何相似？用物理学来理解大语言模型

化学空间导航仪：流生成式AI引导分子属性控制

AI发现超16万种新RNA病毒？阿里云、中山大学合作研究登Cell

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

快多个数量级，清华更高精度、更泛化的深度学习电子结构计算方法登Nature子刊

Nature子刊，基于量子实验数据进行机器学习，用于解决量子多体问题

AI再夺诺奖！2024诺贝尔化学奖授予蛋白质计算领域三位科学家

诺奖颁给交叉学科，对「AI for Science」意味着什么？

从预测风暴到设计分子，微软的 AI 基础模型如何加速科学发现

精准预测流产风险，上海交大等开发可解释AI算法，为早期预防带来希望

中国科学院团队发布GeneCompass：解析基因调控密码，打造干湿融合新范式

如何用生成式 AI 定义我们的未来？看看微软怎么说

更简单、更清晰，解析核酸、蛋白、细胞等结构，AI实现快速分子模式挖掘

Science 发文，高通量蛋白质组学和人工智能的革命

中国科大、科大讯飞团队开发ChemEval：化学大模型多层次多维度能力评估的新基准

灵巧的机器人，DeepMind推出两个基于AI的机器手系统和未知场景「生成式AI」应对策略

同时生成蛋白序列和结构，David Baker团队序列空间扩散新模型登Nature子刊

新「AI科学家」？MIT整合多智能体，实现材料科学研究自动化

OpenAI o1 在医学领域的初步研究，我们离 AI 医生更近了吗？

机器学习辅助催化剂设计，天大团队开发通用且可解释的描述符

中国科学院物理学家利用机器学习揭示原子核壳演化

Nature子刊，川大团队机器学习结合MD，预测蛋白质变构，助力药物研发

23亿参数，Transformer架构，NASA、IBM发布「天气+气候」通用AI模型Prithvi WxC

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉