【金猿技术展】测序数据分析——单细胞测序数据分析细胞轨迹

科技   2024-11-19 08:31   北京  





荣联科技集团技术

技术由荣联科技集团投递并参与“数据猿年度金猿策划活动——2024大数据产业年度创新技术突破榜单及奖项”评选。




大数据产业创新服务媒体

——聚焦数据 · 改变商业





本发明提供一种基于单细胞测序数据分析细胞轨迹的方法,对单细胞测序数据进行初始分析,得到各个细胞的细胞 基因表达矩阵;统计各个细胞的表达基因数分布、UMI条数分布和线粒体含量分布;筛选高质量细胞;对高质量细胞进行保留高可变特征基因、降维分析以及细胞分群,得到细胞亚群;筛选细胞亚群上调的差异表达基因;保留具有细胞亚群上调的差异表达基因的高质量细胞,构建细胞轨迹,分析细胞轨迹,得到在不同状态之间差异表达的基因。能够对单细胞测序数据进行过滤,凸显关键基因在细胞轨迹中的作用,降低分析的噪音和干扰,降低了计算资源的消耗,使得对硬件的需求降低,易于推广应用。
技术说明


本发明涉及单细胞生信技术领域,提出了一种基于单细胞测序数据分析细胞轨迹的方法及电子设备,以解决单细胞测序数据分析细胞轨迹存在的计算量巨大,分析不够准确的问题。

有鉴于此,本发明的目的在于提出一种基于单细胞测序数据分析细胞轨迹的方法及电子设备,以解决单细胞测序数据分析细胞轨迹存在的计算量巨大,分析不够准确的问题。

于上述目的,本发明提供了一种基于单细胞测序数据分析细胞轨迹的方法,待分析细胞轨迹的单细胞测序数据进行初始分析,基于各个基因在各个细胞中的UMI到各个细胞的细胞-基因表达矩阵;统计各个细胞的表达基因数分布、UMI条数分布和线粒体含量分布;筛选单细胞中鉴定到的基因数量和单细胞中UMI的线粒体基因表达量比例符合预设条件的高质量细胞的细胞-基因表达矩阵;对高质量细胞的细胞-基因表达矩阵依次进行保留高可变特征基因、降维分析以及细胞分群,得到细胞亚群;筛选细胞亚群上调的差异表达基因,并将结果可视化;保留具有细胞亚群上调的差异表达基因的高质量细胞,构建细胞轨迹,并进行细分析细胞轨迹,得到在不同状态之间差异表达的基因,并进行差异基因可视化。

在其中一个实施例中,所述保留高可变特征基因具体包括:利用方差稳定化转换对高质量细胞的细胞-基因表达矩阵进行标准化;对于每个基因,计算所有细胞之间标准值的方差,并根据方差对所有特征进行排序筛选,得到高可变特征基因。

在其中一个实施例中,所述利用方差稳定化转换对高质量细胞的细胞-基因表达矩阵进行标准化具体包括:使用高质量细胞的细胞-基因表达矩阵计算每个基因的均值和方差,并分别进行对数转换;对对数转换所得数据分别进行局部拟合和全局拟合,以预测每个基因均值-方差关系,得到给定某一特征均值对应的方差估计值;通过式计算标准值,其中,zij为细胞j特征i的标准值,xij为细胞j特征i的初始值, 为特征i的平均初始值,δi为从全局方差拟合得出的特征i的期望标准差。

在其中一个实施例中,所述根据方差对所有基因进行排序筛选,得到高可变特征基因具体包括:筛选排序所得序列中的前2000个基因,得到高可变特征基因。

在其中一个实施例中,所述降维分析具体包括:使用ScaleData函数对保留的高可变特征基因进行线性变换;使用RunPCA函数对线性变换所得结果进行PCA降维分析,选取分析结果中的前16个最显著的主成分进行细胞分群。

在其中一个实施例中,所述细胞分群具体包括:利用前16个最显著的主成分构建基于欧式距离的KNN聚类关系图;基于KNN聚类关系图中的局部领域的共享重叠,细化前16个最显著的主成分中任意两个细胞之间的边缘权重;使用FindClusters函数进行细胞分群,并将细胞分群结果使用UMAP和tSNE的降维数据可视化。

在其中一个实施例中,所述筛选细胞亚群上调的差异表达基因包括:选取符合筛选条件的前5个基因作为细胞亚群上调的差异表达基因;所述筛选条件包括:每个细胞亚群的差异表达基因需与所有其它细胞亚群均有差异;筛选的基因在目标亚群和剩余细胞中,均在25%以上的样本中有表达;P值≤0 .01和基因上调的倍数≥2~0.25。

在其中一个实施例中,所述分析细胞轨迹,得到在不同状态之间差异表达的基因,并进行差异基因可视化具体包括:使用differentialGeneTest函数按照~sm .ns特征鉴定在生物学过程以及其他细胞命运方面在不同状态之间差异表达的基因,筛选差异最显著的50个基因进行差异基因可视化。

在其中一个实施例中,所述预设条件具体包括:单细胞中鉴定到的gene数量为500~7000;单细胞中UMI的线粒体基因表达量比例小于20%。本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的方法。

从上面所述可以看出,本发明提供的方法和装置,通过对待分析细胞轨迹的单细胞测序数据进行初始分析,基于各个基因在各个细胞中的UMI条数,得到各个细胞的细胞-基因表达矩阵;统计各个细胞的表达基因数分布、UMI条数分布和线粒体含量分布;筛选单细胞中鉴定到的基因数量和单细胞中UMI的线粒体基因表达量比例符合预设条件的高质量细胞的细胞-基因表达矩阵;对高质量细胞的细胞-基因表达矩阵依次进行表达数据归一化、保留高可变特征基因、降维分析以及细胞分群,得到细胞亚群;筛选细胞亚群上调的差异表达基因,并将结果可视化;保留具有细胞亚群上调的差异表达基因的高质量细胞,构建细胞轨迹,并进行细胞轨迹可视化;分析细胞轨迹,得到在不同状态之间差异表达的基因,并进行差异基因可视化。能够对单细胞测序数据进行过滤,凸显关键基因在细胞轨迹中的作用,降低分析的噪音和干扰,降低了计算资源的消耗,使得对硬件的需求降低,易于推广应用。

技术应用


荣联数据分析私有云平台是面向生物医学大数据的存(分布式存储系统)、管(数据管理系统)、算(超级计算系统)、用(集成生信分析应用流程)的四位一体全栈式平台,是为了满足生物信息分析对于速度、规模和智能化的苛刻需求,量身打造的高度垂直的、全栈的、专业的、架设在用户本地的生物信息分析平台,可提供完整的数据存储、数据管理、数据计算和数据特征分析等服务。

荣联数据分析私有云平台有效解决生物信息数据的“存”、“管”、“算”、“用”等难题外,具有生物数据感知、生物应用感知和多样化计算三大核心优势特性,能够充分利用计算和存储资源,灵活有效的解读高复杂度的生物数据关系和结构,让生物数据的价值大放异彩。

有别于通用硬件+软件的简单堆砌,荣联数据分析私有云平台是为生物信息分析专门设计的自下向上的完整数据管理系统,能够一次性从根本上解决生信行业所面临的数据管理难题。另外,该平台可以根据客户需求进行定制化部署,既可满足日常计算、存储需求,也可实现平台级全流程搭建(含IDC),最大限度贴合临检所、测序公司、科研机构、医疗机构等用户群体的个性化需求。

开发团队



·
带队负责人姓名:
李明壮

李明壮,中国石油大学硕士,具有丰富的项目管理经验,多次参加国家级重大项目的建设并担任课题负责人,是本项目相关1项已授权和6项已受理发明专利发明人。其主持的公司产品及服务成果成功入选“中关村第二批抗击疫情新技术新产品新服务清单”及“科技部-科技抗疫先进技术成果”。

·隶属机构:荣联科技集团

荣联科技集团是专业数字化服务提供商,面向行业客户提供企业数字化转型和IT基础设施建设全方位解决方案。20多年来,公司紧跟IT技术发展趋势,建立了覆盖全国的营销和服务网络,服务于数万家行业客户,成为客户数字化建设的优秀合作伙伴。公司围绕云计算、大数据等新一代信息技术,深耕金融、运营商、政府公用、能源制造、生物医疗五大行业,以先进的数字化服务赋能客户全面数字化转型升级,为数字中国建设助力。

相关评价


随着高通量测序技术及生物信息技术在人类健康领域的应用,数据呈现出快速的增长,其业务场景特有的多任务分析流程力求自动化实现数据大量的迭代运算和反复读写,对存储系统提出了新的挑战。荣联数据分析私有云平台可以满足生物信息分析对于速度、规模和智能化的苛刻需求,为生物医学客户提供完整的数据存储、数据管理、数据计算和数据特征分析服务。

——极道科技(北京)有限公司
创始人吴江

荣联作为浪潮信息的元脑生态伙伴,通过AIStore实现多样化的合作,在人工智能赋能生命医疗高质量发展的道路上,积极探索算力、算法、数据等核心驱动力在生物医疗领域的应用。荣联的数据分析私有云平台已涵盖上百种生信分析工具、算法和流程,可灵活有效的解读高复杂度的生物数据关系和结构,获得了众多客户的认可。

——浪潮电子信息产业股份有限公司
渠道推进部总经理毛柏林

提示:了解更多相关内容,点击文末左下角阅读原文”链接可直达该机构官网。 

数据猿
关注大数据产业的技术应用新媒体。数据猿致力于以大数据的产业应用视角,关注报道金融、工业、医疗、消费等为代表的全行业,并以大数据视角,重点关注人工智能与云计算领域。数据猿也将持续关注物联网、半导体、新能源等重要领域的大数据技术应用及发展情况。
 最新文章