NC | 整合多组学数据预测植物复杂性状

文摘 2024-09-10 00:00 北京

2024年8月10日，由密歇根州立大学Shin-Han Shiu及合作者发表在Nature Communications（IF=16.6）上的题为“Prediction of plant complex traits via integration of multi-omics data”的文章。

该研究内容如下：

1、预测全流程

图1：a. 使用了三种组学数据(基因组G、转录组T和甲基化组M)以及6个表型性状数据。b. 计算了这些性状和组学数据之间的相似性矩阵，包括性状相似性矩阵(pCor)以及基因组相似性矩阵(kinship)、转录组相似性矩阵(eCor)和甲基化相似性矩阵(mCor)。c. 使用机器学习模型(rrBLUP和RF)分别基于G、T和M数据预测这6个性状，并评估模型性能。d. 解释预测模型，分析对关键性状(如开花时间)有重要影响的基因特征，并与已知的基准基因进行比较。e. 进一步整合G、T和M数据，建立综合模型，并利用SHAP方法分析基因特征之间的交互作用。

2、单独使用各组学数据进行预测

该研究使用了6个拟南芥性状数据，包括开花时间、叶片数量、茎长等。研究发现,单独使用基因组(G)、转录组(T)或甲基化组(gbM)数据，与性状之间的相关性都较低，仅能解释很小一部分性状变异。尽管整体相关性较低，但研究者认为这些组学数据中可能包含有预测性信息，因此使用机器学习模型(如rrBLUP和RF)来利用单个组学数据的所有特征进行性状预测。结果显示，不同组学数据构建的预测模型性能相当，都能在大多数性状上取得较好的预测效果。但对于某些性状，组学数据并未提高预测性能。

图2：a. 组学数据之间以及与性状之间的相关性。b. 基于G、T和gbM数据分别构建的预测模型的性能，包括使用不同类型的甲基化数据(CG、CHG和CHH)的模型性能。

3、多组学数据对复杂形状预测的贡献

首先计算用各组学数据单独建模，提取相应的特征重要性，进行比较。发现不同类型的组学数据构建的模型中重要性分数之间的相关性很弱或没有相关性，并且模型之间重要基因几乎没有重叠。

图3：a. 基因组(G)和转录组(T)特征重要性之间的相关性较低。b，基因组(G)和基因体甲基化(gbM)特征重要性之间的相关性略高于其他。c. 转录组(T)和基因体甲基化(gbM)特征重要性之间的相关性较低。

4、开花时间预测模型的重要特征中鉴定到了基准开花时间基因

从 FLOR-ID下载了 426 个基准开花时间基因，发现共有169个基准花期基因被至少一种组学数据的一种重要性度量识别为重要特征，只有2个基因(FLC和MAF2)被所有3种组学数据的模型都识别为重要。

图4：共有169个基准花期基因被至少一种组学数据的一种重要性度量识别为重要特征。其中只有2个基因(FLC和MAF2)被所有3种组学数据的模型都识别为重要(橙色字体)。另有27个基因被2种组学数据的模型识别为重要(蓝色字体)。例如FCA基因被基因组(G)和基因体甲基化(gbM)模型识别为重要。其余140个基因仅被单一组学数据的模型识别为重要(黑色字体)。例如SOC1基因仅被转录组(T)模型识别为重要。

5、鉴定与花期调控有关的其他基因

对21个非基准基因的突变体进行实验验证,发现有6个基因的突变会显著影响花期。此外，对37个被预测为非重要的基因的突变体进行验证，也有43.2%的基因突变会影响花期。这表明特征重要性排名并不能完全准确预测基因对花期的影响。

图5：a. 使用所有特征、只使用426个基准花期基因相关特征、或只使用426个非基准基因相关特征构建的随机森林模型的预测性能。结果显示,仅使用非基准基因的模型性能显著优于仅使用基准基因的模型。这表明除了已知的基准花期基因外,还有其他重要的非基准基因参与调控花期。b-h. 对21个被预测为重要的非基准基因以及37个被预测为不重要的基因进行突变体实验验证。结果发现,6个非基准基因的突变会显著影响花期,而37个被预测为不重要的基因中也有43.2%的基因突变会影响花期。这表明重要性排名并不能完全准确预测基因对花期的影响。

6、基因对花期预测的依赖于品系

一些基因可能只在特定品系中对花期有重要贡献，而不是在所有品系中都重要。为了评估这一点，研究者分析了每个品系中重要特征的贡献。通过分析重要基因在不同品系中的SHAP值，发现它们对花期的贡献存在耦合和解耦的现象。在某些品系中，这三个基因的表达水平和SHAP值呈现正相关，与花期长短一致;而在其他品系中，它们的作用可能相互独立。这种基因对花期贡献的品系依赖性可能部分解释了在原始模型中，基准花期基因并未全部被识别为重要特征的原因。因为这些基准基因主要是在Col-0品系中发现的。总之，不同品系中基因对花期的贡献存在差异，这表明花期调控的遗传机制在不同品系中可能存在复杂的差异。

图6：a-b. 不同品系中,转录组特征对花期预测的贡献存在差异。这可以通过SHAP值的品系依赖性体现出来。c-e. 不同品系中,SOC1、FT和FLC基因的表达水平与花期长短呈现不同程度的相关性。有的品系中呈现负相关,有的品系中呈现正相关。SOC1和FT基因的SHAP值表现出耦合和解耦的现象。在某些品系中它们的SHAP值呈现正相关,而在其他品系中则相互独立。

7、通过多组学数据整合揭示遗传相互作用

整合基因组、转录组和甲基化等多种组学数据可以显著提高对复杂性状的预测准确性,相比单一组学数据建立的模型有更好的性能。不同类型的组学特征之间存在复杂的相互作用,这些相互作用对复杂性状的预测有重要贡献。在花期预测中,SOC1基因与FT、MIR172B、SPL5、FLC和PIF3等基因之间的相互作用最为重要,这与SOC1在花期中的功能相一致。

图7: a. 将不同类型的组学数据整合建立的花期预测模型,其预测准确度要高于单一组学数据建立的模型。b-c. 不同类型的特征之间存在复杂的相互作用,这些相互作用对花期预测有重要贡献。从SHAP交互值的分布可以看出,不同类型特征之间的交互作用数量和强度存在差异.d-f. 在这些交互作用中,SOC1基因与FT、MIR172B、SPL5、FLC和PIF3等基因之间的相互作用最为重要,这与SOC1作为花期整合因子的功能相一致。

文章链接：https://www.nature.com/articles/s41467-024-50701-6

http://mp.weixin.qq.com/s?__biz=MzIxMzU4MDg5Mg==&mid=2247489191&idx=1&sn=f5448641ed4b97944f4e468c8187427f

分子生药创新团队

分子生药学是在分子水平上研究中药鉴定、质量形成、资源保护与生产的一门学科。分子生药学作为一门不断发展的学科，吸收生命科学领域中最新成果，并将其应用于中药研究中，形成新理论、新方法、新技术，拓展分子生药学学科的内涵和外延。

最新文章

PBJ∣重庆大学徐海洋课题组揭示了广藿香植物长链烷烃的生物合成机制

Ind. Crop. Prod | 植物次生代谢积累的分子网络：当前的认识和未来的挑战

揭秘地球上最大生物体产生的melleolide类化合物的化学多样性

New phytologist | 华中农大徐强团队解析柚子的起源和传播历史

浙江大学李永泉组ACS Synth. Biol 补骨脂酚在酵母中的从头合成

中华中医药学会中药鉴定分会第二十一次学术年会暨换届选举会议圆满落幕

Nature | 黄三文团队发现番茄“糖刹车”基因，揭示果实糖积累调控新机制

Nature Communications | 中国药科大学系统转录组学揭示天门冬目植物的系统发育和葱属植物风味生物合成的演化

IJBM | 通过一种新型黄酮转运蛋白FtABCC2促进苦荞中芦丁的积累

JACS｜刘天罡/鲁丽团队揭示艾蒿中高效驱虫成分艾蒿醇

JAFC丨广西科学院谢能中研究员团队通过多糖基化途径促进苦味未成熟罗汉果中甜味剂罗汉果苷的生物合成

NC｜原小檗碱型和苯并菲啶型生物碱在酵母中的从头合成

MCF | 上海中医药大学王如锋/王峥涛教授团队组合代谢工程改造枯草芽孢杆菌从槲皮素高效合成异槲皮素

ACS Catal | 医科院药物所訾佳辰课题组联合中大巫瑞波课题组解析狼毒大戟中半日花烷衍生型二萜药效物质的形成机制

The Plant Journal | 石河子大学生命科学学院李鸿彬/孟状团队甘草多倍体演化途径新发现

比较群体基因组学揭示了杏-桃-李-梅复合体中的趋同和趋异选择

Horticulture Research | 黑枸杞高质量基因组揭示花青素生物合成调控的遗传机制

Nat Plants | 六位一体：鉴定黄芪甲苷生物合成关键酶基因

山东省林草种质资源中心：玫瑰端粒到端粒、无间隙的基因组组装

Plant Commun | 贵师大杨正婷团队联合华南农大夏瑞和浙大刘建祥团队揭示鱼腥草基因组和黄酮生物合成的调控机制

Hortic Res | 湖南农业大学及岳麓山实验室曾建国教授团队成功构建十倍体药用植物鱼腥草染色体水平基因组

Plant Journal | O-甲基转移酶的功能分化塑造黄石斛中多甲氧基联苄化合物的化学多样性

Plants | 山药（Dioscorea rotundata）基因型的多性状选择

中华中医药学会中药鉴定分会第二十一次学术年会暨第八届委员会换届大会第二轮通知

NAR| 华中农大药用植物团队发布首个菊科多组学数据库AMIR

JPA | 中国中医科学院医学实验中心中药抗菌研究团队综述了中药及其活性成分治疗耐药大肠杆菌感染的研究进展与机制

PBJ｜齐鲁工业大学（山东省科学院）山东省分析测试中心开发活体植物原位无损质谱成像分析新型技术

J PHOTOCH PHOTOBIO B | 中国中医科学院医学实验中心皮肤健康研究团队揭示了UVA诱导的面部荧光的来源

bioRxiv | 德国马普化学生态所揭示奎宁及金鸡纳生物碱中甲氧基的生物合成起源

Advanced Science | 中国农科院作科所揭示荞麦属植物黄酮类合成新基因簇参与调控高海拔适应的分子机制

NPR | 苄基异喹啉类生物碱结构多样性、生物合成起源与进化研究进展

哥本哈根大学Sotirios Kampranis/赵勇团队-生物活性驱动的组合生物合成策略挖掘抗糖尿病和抗癌活性雷公藤三萜衍生物

吉林农业大学：基于人参胚状体的原生质体分离及瞬时表达体系建立

PBJ | 甜叶菊高质量单倍型基因组助力增强甜菊糖苷的生物合成

MPB | 基于转录组和代谢组的紫苏单萜生物合成与萜类合酶TPS功能的研究

SCIENCE ADVANCES | 陕西师范大学王喆之/周文团队解析贯叶连翘内源褪黑素昼夜调控机制

Plant Com | 上海中医药大学中药研究所陈万生团队揭示黄芩属植物中黄酮类化合物结构多样性的形成机制

Microbiome | 杭州师范大学王慧中团队揭示内生真菌参与红豆杉环境胁迫响应的新机制

Hortic Res | 长江大学许锋教授课题组揭示MYC2转录因子调控银杏萜内酯生物合成的分子机制

Cell Reports | 植物所汪小全研究员/遗传所梁承志揭示杜鹃花属植物适应性进化和花色多样性形成的分子机制

New Phytol | 西北农林科技大学麻鹏达/董娟娥团队揭示茉莉酸调控丹参药用活性成分合成和耐盐性平衡的新机制

Cell | 石蒜生物碱生物合成途径解析取得重大突破

中国新闻网 | 香港特区政府卫生署与中国中医科学院医学实验中心签署合作安排

IJBM | 成都中医药大学揭示光调控西红花球茎储存物质动员的新机制

唇形科香薷族系统学研究取得新进展

NC | 整合多组学数据预测植物复杂性状

全球黄芩属（唇形科）系统学研究取得重要进展

新植物学家：南京农大揭示MYC2调控植物毛状体形成的作用机制

基于晶体结构解析糖基转移酶SgUGT94-289-3对罗汉果苷的催化选择性机制

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉