植物跨物种单细胞数据整合方法

健康 2024-10-12 17:01 江苏

单细胞RNA测序(scRNA-seq)被越来越多地用于研究植物中由基因表达和细胞类型组成的物种间差异。随着大量植物scRNA-seq数据发表，植物的独特多样性使物种之间的比较评估变得重要。但是与哺乳动物不同，在哺乳动物中同源基因和结构很容易被识别，植物基因家族经常通过全基因组复制、多倍体化和串联基因复制来进行扩展，使得识别一对一的同源基因变得困难，从而阻碍了进行跨物种比较分析。

2024年6月27日美国纽约冷泉港冷泉港实验室基因组学部在《nature plants》上发表了一篇关于植物跨物种单细胞数据整合的文章（IF：15.8）：Coexpression enhances cross-species integration of single-cell RNA sequencing across diverse plant species。这项研究旨在通过使用共表达来识别基因对，从而解决植物跨物种单细胞数据整合的难题。这些基因对虽然不是排他性的直系同源物，但在功能上足够相关，能够整合这些高维数据。通过减少整合的障碍，为发现对植物适应和驯化至关重要的新型细胞类型特异性创新奠定了基础。

技术方法及结果

该方法的本质是使用以前批量RNA测序数据分析来定义跨物种基因对（即，共表达代理），这些基因对可以应用于更具体但更稀疏的单细胞数据。通过利用由16000多个公开可用的RNA测序数据集构建的稳健共表达网络，以及OrthoDB v11的基因系统发育，共表达代理准确反映了它们从10,11中提取的每个物种对的潜在生物学，同时共表达数据和基因系统发育识别了扩展一对一基因空间的基因对，改善了已知细胞类型之间的数据整合和比对，并突出了物种之间的新细胞（图1-a）。通过进一步的改进整合，此方法也成功能够在它们的scRNA-seq数据中识别新的和保守的细胞类型。

图1

实例一

整合拟南芥单细胞数据集分割成两个伪“物种”

第一个“物种”是通过随机选择一半的细胞和一半的基因组产生的。对于这些细胞，基因组的后半部分被移除。然后，取出剩余的细胞，这些细胞将成为第二个“物种”，并去除第一组细胞中存在的一半基因组（图2-a）。接着，确定了两个子集基因组之间的共表达代理，找到了具有相似表达谱的基因对。例如，所选的共表达代理基因AT1G16150与靶基因AT1G1610的表达谱非常匹配。相比之下，来自同一直系同源家族的被排斥基因AT4G31100具有不同的表达谱（图2-b）。最后，使用Scanorama v1.7.113以及找到的共表达代理对拟南芥的数据集进行重新整合和重新聚类，将82%的细胞与两个数据集的细胞组合在一起（图2-c），其中75%匹配了相同细胞类型的细胞。为了评估基因代理的成功在多大程度上取决于基因系统发育的信息，以及有多少信息来自共表达保守谱，我们试图使用每个直系同源组中被拒绝最差的代理（即共表达最低的代理）整合数据集，细胞的成功匹配率降低到65%（图2-d）。为了确定单独的序列相似性是否足够，我们计算了每个拟南芥基因的成对蛋白质序列相似性，并试图用它来鉴定基因代理。虽然能够比随机表现更好，但在重新整合分割数据集方面，这一指标比共表达更差，并且完全无法重新整合某些集群。最后，我们尝试使用1900个随机基因对进行整合，发现我们无法整合（图2-e）。进一步评估我们的共表达代理，我们评估了被拒绝和选定的基因对在每个基因的基础上在细胞类型中显示相同表达的程度。发现，在不同细胞类型中，被接受的共表达代理更接近靶的表达谱，而被拒绝的代理平均距离靶的表达高83%（图2-f）。这表明，与同一正交组的其他基因相比，共表达代理在表达谱上与其靶基因更相似。此外，运用此方法在13种植物物种之间生成了共表达代理，并在物种之间平均鉴定出5750个基因对（图2-g）。

实例二

整合玉米以及水稻的单细胞数据

使用共表达代理，成功地整合了玉米和水稻数据集（主要针对四种广泛的细胞类型），将36%的细胞与两个数据集的细胞准确地整合成簇（图3-a）。其余的细胞差异很大，在不同物种中仍然表现为不同的亚群。虽然这远未达到100%，但确实存在真正的跨物种差异，因此尚不清楚最大合理的整合百分比是多少。重要的是，整合比仅使用1-1个基因对要好，后者只整合了14%的细胞（图3-b）。为了逐个细胞类型评估整合情况，使用了MetaNeighbor v3.19，量化细胞类型在统计框架中跨数据集复制的程度。比较了使用scGen的四种集成——利用共表达代理和1-1基因，仅使用共表达代理，仅使用1-1个基因和使用随机基因（图3-c）。可以看出，单独的共表达代理、单独的1-1对和组合都能准确、相似地将不同物种的细胞类型分组。虽然对于这种广泛的分类来说很微妙，但当用MetaNeighbor进行评估时，完整的共表达代理集在所有细胞类型中都比其任何一个部分集成得更好，反映了来自共表达代理的额外信息。因为这是一个专注于明确对齐的验证，所以性能通常会从高到更高。为了评估增加的已知基因对空间的效用，将共表达代理替换为随机对，并跟踪性能改进（图3-d）。对于大多数细胞类型，性能稳步提高到接近1，表明5000个共表达代理的典型数量足以整合跨物种数据。进一步查明共表达代理，发现它们通常代表核心保守功能，如光合作用、线粒体蛋白和核糖体代谢（图3-e）

结论

整合跨物种单细胞数据是植物发育、进化和分子生物学领域越来越普遍的目标。为了促进这一过程，使用共表达代理可以扩大可用于整合的基因空间。这些代理列表为改善单细胞数据的整合提供了重要资源，加速了知识从研究良好的模式生物向对全球粮食供应至关重要的作物系统的转移。

END

上海派森诺生物科技股份有限公司成立于2011年4月，是一家致力于为生命科学、健康医学等领域提供微生物组、基因组、转录组、单细胞及蛋白代谢等多组学分子生物学技术服务及大数据挖掘与分析服务的高新技术企业，是国家级专精特新“小巨人”企业、国家知识产权优势企业、上海市“科技小巨人”企业。公司总部位于上海，设有多家全资子公司，实验及办公面积逾15,000m²。

公司建立了完善的基因测序平台和大数据云计算平台，具有完全自主研发的创新技术和成果，派森诺生物及所属子公司已取得授权及受理专利、软件著作权250余项；合作项目论文多次发表在Nature、Lancet等国际生命科学、医学权威期刊，联合署名发表的SCI文章超1,500篇，累计影响因子超过10,000分。公司在全国31个省市设立了销售网点，业务网络覆盖亚洲、欧洲、大洋洲等多个国家，与全球500多所高校、300多家医院及600多家科研机构建立了紧密合作关系。

派森诺生物作为基因检测、蛋白代谢检测及大数据分析、体外诊断试剂开发的服务商，始终秉承“解析基因序列，诠释生命密码，改善人类生活”的企业使命，致力于为广大生命科学、医学工作者提供包括高通量基因测序、临床医学基因检测、蛋白及代谢组检测分析、生物信息学服务、生物云计算、分子生物学实验等科研及临床应用解决方案。

http://mp.weixin.qq.com/s?__biz=MzIyNTAxNTc1MQ==&mid=2652207908&idx=2&sn=f9afd77be03bdf07e67616cb344dffb2

派森诺生物

生命科学研究最新进展，尽在一手掌握！

最新文章

极速周期 | 派森诺助您科研快人一步！

PAI智能绘图助手，精准解决绘图难题

椎间盘退变(IVDD)治疗新曙光：IF 18.7！转录组学驱动的金属酚网络平台，清除ROS、抗焦亡、促ECM再生

科研干货 | 学会这些！载体构建轻松拿捏~

肿瘤研究新突破：单细胞测序揭示生命之谜，助力高分文章

会议预告 | 2024年中国微生物学会学术年会，派森诺与您相约福州

重磅升级！Astral蛋白组学分析内容革命性升级大揭秘！

一次过瘾，你想要的ATAC这里都有

极速周期 | 派森诺助您科研快人一步！

科研干货 | 细菌基因组数据NCBI上传教程2.0

会议预告 | 第二届土壤微生物组与土壤健康国际研讨会，派森诺与您相约陕西杨凌

五大生物信息学可视化工具，让科研数据跃然纸上

MAGIC-seq：基于定制化微流控芯片的空间转录组测序技术

植物跨物种单细胞数据整合方法

极速周期 | 派森诺助您科研快人一步！

科研干货 | PCR实验常见问题及解决方案

派森诺生物与赛默飞达成战略合作，携手探索多组学无限可能

Astral蛋白组：告别选择困难症，让科研更高效！

派森诺客户表观组学研究成果荣登《Nature》！！！CUT&Tag、ATAC-seq助力揭秘神经肽信号调控T细胞分化

展会回顾 | 派森诺闪耀全国环境微生物学学术研讨会：多组学联合分析引领科研新风尚

解锁植物基因密码：一步指南开启转录组新视界

植物泛基因组的研究进展及其应用

如何“玩转”植物T2T基因组，一举冲刺TOP期刊!

如何实现数据挖掘与联合分析中微生物数据的多层次分析？

文献速递丨高通量的qPCR系统分析与追踪污水抗生素耐药基因

文献速递丨基于高通量 qPCR 芯片技术探索垃圾填埋场中的微生物秘密

文献速递丨高通量qPCR芯片助力环境微生物抗生素抗性基因研究

一键式分析神器，让宏基因组Binning研究起飞

IF10.3! 靶向代谢组+16s技术揭示肠道微生物群和相关SCFAs对疫苗接种的有效性影响

IF=8.4！探索耐药真菌的进化之路：FKS1突变在棘白菌素耐药耳念珠菌中的进化积累

IF=5！非伤寒沙门氏菌的流行病学特征和耐药基因水平转移机制研究

农学研究陷入谷底？单细胞测序技术强势助力，引领科研攀上高峰！

会议预告 | 第二十五次全国环境微生物学学术研讨会，派森诺与您相约武汉！

植物泛基因组的研究进展及其应用

如何“玩转”植物T2T基因组，一举冲刺TOP期刊!

如何实现数据挖掘与联合分析中微生物数据的多层次分析？

如何“玩转”植物T2T基因组，一举冲刺TOP期刊!

不白来，都不白来啊，三款密度图总有你需要的

派森诺&10x Genomics | 2024水产类单细胞转录组测序技术应用研讨会圆满结束

植物跨物种单细胞数据整合方法

IF=8.4！探索耐药真菌的进化之路：FKS1突变在棘白菌素耐药耳念珠菌中的进化积累

IF=5！非伤寒沙门氏菌的流行病学特征和耐药基因水平转移机制研究

带你轻松搞定发表级富集分析绘图！——Metascape 快速上手指南

单细胞产品大揭秘 | 一文带你选择适合自己的单细胞产品！

蛋白组数据统计检验方法全解析

干货 | 基因组专题（2024.10.9更新）

如何“玩转”植物T2T基因组，一举冲刺TOP期刊!

血液样本知多少？谈谈质谱组学中的血液

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉