GPB：植物人工智能育种中的机器学习

文摘 2024-10-23 18:03 江苏

今天来看一篇综述。

人工智能（AI）的智能源于机器学习（ML），即让计算机无需显式编程即可学习的能力。ML通过推导数据模式，减少理解数据所需的人力。ML算法支持大数据分析[1]。随着多组学技术的进步，植物育种进入“基因组、种质、基因、基因组育种和基因编辑（5G）”时代[2]，整合生物知识与组学数据以加速性状改良。ML在5G育种中前景广阔，已应用于组学驱动的基因发现、基因型-表型（G2P）预测、基因组选择（GS）和植物表型组学。然而，植物基础研究与育种实践间仍存在差距[3]。鉴于多组学、基因型、表型和环境数据的高维异质性，需新型ML算法。本文提出克服前沿ML模型应用于植物研究的主要挑战的方法，旨在实现智能便捷的植物育种。

ps：我原先在想要不要把文章中的引用格式删了，后面思考后觉得还是不删了。中文翻译后的句子的引文位置可能有偏差但也大差不差。万一有读者看完某句后需要引用，那就可以去原文的参考文献处找，也方便点。

规模化群体多组学分析用于基因发现

发现农学有用基因是利用自然变异进行标记辅助选择（MAS）或通过基因编辑创造人工突变的前提。常见农艺性状的全基因组关联研究（GWAS）已遇瓶颈，解析复杂多基因性状能力有限。多组学分析聚焦于不同时空条件下的参考种质面板，将细胞生物分子（如RNA转录物、蛋白质、代谢物）视为分子性状（mTraits），可显著提高因果基因和突变的定位分辨率。此外，表型组学已成为多组学另一主要部分，表型数据主要通过计算机视觉技术的高通量成像设备生成。由于表型特征可能反映植物细胞内某些生理活动，此类特征可视为成像性状（iTraits）。

应对“维度诅咒”

规模化多组学数据集通常高维、噪声大、异质性强。通过无监督学习的降维（DR）方法解决“维度诅咒”问题。多组学数据关联研究（MODAS）工具箱应用多种DR算法处理植物基因型和分子性状（mTraits）[4]。对基因型进行DR时，MODAS结合Jaccard相似系数、基于密度的空间聚类应用噪声（DBSCAN）和主成分分析（PCA）算法生成“伪基因型指数”文件，简化基因组变异图谱，提高mTraits定位效率。

mTraits也需降维，因组学数据技术问题和生物通路特性导致高度冗余。例如，代谢物由多基因和通路参与的酶促反应级联产生，通路间常见串扰，最终产品和中间化合物可能重复映射到同一区域。非负矩阵分解（NMF）算法通过分解代谢物(n)×样本(m)矩阵去除冗余，生成元代谢物和元样本维度，反映化合物集总体丰度和基于映射区域单倍型的样本亚组。通过元代谢物与伪基因型指数的GWAS映射贡献于相应生物合成途径的基因组块，再用块内SNP识别因果基因和突变，大幅减少计算时间，节省资源，结果清晰易解。

自动化特征工程

特征集（如SNP、mTraits、iTraits）远大于样本集，增加过拟合风险。需进行特征工程（包括特征选择或特征提取）后再训练模型。特征选择从总特征中选小子集，不改变原特征值，可通过先验知识手动选择或模型训练时自动选择。特征提取通过总结原特征特性创建新特征集，NMF即此类方法。特征工程可嵌入多种机器学习（ML）范式，如深度学习（DL）和集成学习（EL）。DL卷积神经网络在层间信息传递时进行特征提取，LightGBM通过计算信息增益（IG）评分进行特征选择。尽管网格搜索自动调参在植物中广泛应用，自动特征工程常被忽视。近期研究表明，LightGBM选出的高IG评分SNP与GWAS识别的峰值SNP一致[5]，表明算法能识别性状相关变异，自动特征选择可用于发现农学重要基因，助力MAS有效分子标记面板设计。除嵌入ML算法的方法外，独立特征工程工具（如Python“Featuretools”库的深度特征合成法）也可用于植物研究。

流形学习用于数据可视化

流形学习通过非线性降维（DR）算法可视化超高维数据集，保持高维数据几何特性。此技术特别适用于单细胞RNA测序（scRNA-seq）数据可视化。多种算法（如t-SNE、UMAP、PHATE）用于研究基于scRNA-seq的异质细胞群体结构。另一策略利用深度神经网络（DNN）提取不同网络层内部节点信息，实现批次校正、聚类、去噪和数据可视化。此DL策略不再被视为“黑盒”，因几何特性反映DNN隐藏层提取的生物特征。SAUCIE同时进行scRNA-seq数据的DR和可视化。单细胞分辨率的其他组学数据生成也面临多层级组学数据对齐和整合的新挑战。

精细定位致病变异

基因发现旨在识别对特定性状有益的等位基因变异。精细定位因果变异（如SNP、InDel、PAV、SV）对精准育种重要，尤其对单基因主导的性状。编码SNP或短InDel仅占性状相关变异的很小部分。定位SV和PAV相关的调控变异需高质量泛基因组序列。多步流程辅助多组学数据：

1）GWAS粗定位；

2）TWAS、MWAS、ChIP-seq或STARR-seq整合分析缩小候选基因；

3）SNP基因型映射泛基因组确定HapMap；

4）统计检验PAV相关HapMap与表型变异一致性。

多组学识别的因果变异需实验验证后才可用于分子设计育种。因果变异精细定位涉及多种群体规模组学数据（泛组学），ML方法整合分析泛组学数据的发展备受期待[6]。

知识驱动型分子设计育种

植物研究知识应促进应用植物育种。明确性状的生物学机制可精准利用因果基因改良性状，但转化知识到育种仍具挑战。GWAS所用种质面板包含野生亲缘、地方品种、淘汰品种和现代品种以确保基因型和表型多样性。但种质中多数突变在现代农业品种中已不存在，因有害等位基因被剔除，有益等位基因被固定。现代育种利用基因少，且这些基因的有利突变在不同群体中各异。前景突变需特定遗传背景才有效，故种质中发现的突变未必适用于现代育种。人工创造突变时，新突变需适应现有基因调控网络。瓶颈不在基因编辑或转基因技术，而在识别可修饰而不影响非目标性状的基因和受体材料。

育种的关键在于“时机”和“平衡”

性状改良本质是精细调控基因网络。杂交通过重组有害和有益等位基因生成新调控模式，筛选最优网络以实现性状改良目标。即使微小表型变化也可能涉及重塑的基因网络，影响基因和通路的复杂互作。有害和有益等位基因的定义基于其对产量的最终影响，且其状态在发育阶段和环境中可互转[7]。育种需平衡两组对抗性等位基因的效果。

ML（机器学习）能整合知识和数据，适用于将基因和机制知识转化为应用育种。例如，ML辅助分子设计育种适于机械收获的玉米品种，需考虑多性状改良，难点在于基因的多效性。TOP（目标导向优先化）算法可学习多性状间的协同或竞争关系，辅助选择优候选[8]。充足基因型和表型数据下，ML模型可建立基因与性状关联，学习最优等位基因组合模式，辅助选择理想单倍型材料以同步改良多性状。

EL面板设计

靶向测序基因分型（GBTS）广泛应用于精准医疗的遗传诊断，但成本高，不适于大规模植物育种。GBTS可用于积累ML训练数据，直到覆盖所有目标基因等位组合。识别最稳定SNP后，可设计低成本SNP面板。基于竞争性等位基因特异性PCR（KASP）的超高通量平台（如Nexar Array Tape系统）可用于大规模样本处理，需高效通用标记。嵌入式特征选择的EL（集成学习）算法（如LightGBM）可筛选高效用SNP，生成高浓缩SNP面板，保持最大预测性[5]。

因果学习路径设计

标记面板涵盖GWAS分析识别的性状相关SNP，而通路面板包含多组学分析识别的调控网络或代谢途径基因变异。设计通路面板需推断基因间因果关系（如转录因子与目标基因）。相比用于改良常规农艺性状的标记面板（含数千SNP），通路面板标记较少，针对特定植物特性（如抗逆性或代谢物含量提升）。孟德尔随机化（MR）用于推断植物中突变、基因、生物分子与性状的因果关系[4]，但其基于人类群体遗传学假设，对植物适用性需验证。需寻求独立于遗传假设的新方法。ML与因果推断结合形成“因果学习”领域，使AI更贴近现实决策。如因果表示学习和因果树学习（CART模型改进版）可从多组学数据重构生物网络，推断因果关系表示节点间方向性边缘。

数据驱动的基因组设计育种

工业育种数据包括基因型、表型、环境、气候和田间数据。数据驱动设计（如基因组选择GS[9]）无需特定基因机制知识，但受限于基因分型成本。低覆盖度全基因组测序（lcGWS/ulcGWS）成本低，但需高覆盖度参考HapMap（hcGWS）进行基因型数据插补。GS项目通常用20%-25%群体构建训练集，预测精度0.5-0.6，成本降低30%-40%[6]。多群体杂交需注意群体分层和过拟合问题。

多组学数据结合深度学习（DL/DNN）可提高预测精度（如DeepGS、DNNGP[10,11]），但需特征工程降维。迁移学习可整合多组学数据与SNP基因型。商业育种分多阶段，ML在GS中应用广泛，但非万能。GS适于评估杂种优势，不适于精细调控特定性状。基因组优化虚拟仿真（GOVS[12]）和表型可塑性模型（G×E[13]）为补充方法。ML适于复杂数据，但样本少时统计模型更优。半监督学习和多模态学习（如jDR）可应对样本稀缺问题[14]。

构建植物人工智能育种的生态系统

高质量数据集和标签比ML模型更重要，适用于育种。研究表明无单一GS模型在所有性状和物种中表现最佳[15]。ML在育种中需考虑精度、鲁棒性、扩展性和效率。种子行业期待专用于植物AI育种的ML生态系统，包括数据、模型和应用平台（图1）。数据平台自动化处理基因型和表型数据，模型平台含GS、G2P、G×E等决策模型，应用平台提供用户友好的服务接口。ML生态系统将使植物育种更智能便捷。

文献来源：

Cheng, Q.; Wang, X. Machine Learning for AI Breeding in Plants. Genomics, Proteomics & Bioinformatics 2024, 22, qzae051, doi:10.1093/gpbjnl/qzae051.

PS：文章发在2区，但这篇的参考文献好少，就15篇。作为研究报告和综述来说都很神奇的数量。我少见多怪吧。毕竟传说中有大佬写文章不用参考文献，因为他自己就是参考文献！

智慧识竹

和小周周一起学习新知识，探索更多的未知世界吧

最新文章

单倍型解析的九倍体基因组为竹子的体外开花提供了新见解

竹子中ABCG亚家族的比较分析及PeABCG15在木质素单体运输中的潜在功能

酵母杂交实验介绍

F-box蛋白PeFKF1通过与PeID1和PeHd1合作促进竹子（Phyllostachys edulis）的开花

IJBM: BZR1靶向类固醇22-α羟化酶4，负调节竹子的细胞伸长

PPB：对毛竹中生长素响应因子家族的鉴定和特征分析揭示PeARF41对第二细胞壁形成具有负调控作用

PNAS：甜橙果实发育和成熟过程中全基因组范围上DNA甲基化的增加

一个涉及水分运输的竹子‘PeSAPK4-PeMYB99-PeTIP4-3’调控模型

单细胞转录组分析揭示了棉花色素腺的发育轨迹和转录调控网络

高杂合性六倍体勃氏甜龙竹的染色体水平基因组和代谢组分析阐明了其顶芽质量和发育特征

弥补空白：在端粒到端粒时代解析植物着丝粒

NP：种子萌发过程中单细胞转录状态的建立

NC:全面映射和建模水稻调控组的景观揭示了复杂性状背后的调控结构

GPB：植物人工智能育种中的机器学习

11种竹子基因组组装揭示动态亚基因组优势诱导的多样化

比较群体基因组学揭示了杏-桃-李-梅复合体中的趋同和趋异选择

nature methods：从单细胞和空间转录组学推断模式驱动的细胞间流动

HR：端粒到端粒无间隙的鳄梨参考基因组组装为识别与脂肪酸生物合成和抗病性相关的基因提供了有用的资源

JIPB：等位基因感知的染色体尺度组装：六倍体麻竹的异源多倍体基因组

整合生理特征和蛋白质组学分析为蓝/红光处理的毛竹（Phyllostachys edulis）提供新见解

MP：操纵光感应和昼夜节律信号限制了拟南芥对变化环境条件的表型可塑性

PLANT PHYSIOLOGY：植被遮荫产生的光信号促进避荫植物对低光的适应

光和激素信号通路的整合在植物避荫综合征调控中的作用

新植物学家: 植物的耐阴分子机制

The plant cell: 光感受器活性有助于粗毛碎米荠和拟南芥幼苗对遮荫的不同响应

Plant Physiology:VvbHLH036，一个基本的螺旋-环-螺旋转录因子，调控葡萄树的耐寒性

新植物学家：在草类中更大的基因组可提供环境依赖性生长优势

Trends in Plant Science: 遮荫耐受性:当高生长不是一种选择时

The Plant Cell:毛竹的快速生长：细胞图谱、转录组动态和环境因素

Nature Methods:基因水平的单细胞轨迹对齐

非生物胁迫诱导的转座元件及其转录本中的DNA甲基化揭示了毛竹的多层次响应

NP:草类植物中的抗干旱能力的趋同进化

Nucleic Acids Research:基于深度学习的方法能够自动且准确地组装染色体水平的基因组

NC:基于单倍型的全基因组揭示了毛竹种群中的遗传变异和气候适应

Frontiers in Plant Science：开花对不同年龄的竹子的茎的解剖结构、化学成分和碳水化合物代谢的影响

叶绿体基因组变异及七种矮型观赏竹类的系统发育分析

PC&E：一种竹子HD-Zip转录因子PeHDZ72通过促进糖和水分运输赋予了抗旱性

时空转录组图谱揭示了快速生长竹笋器官发生过程中的基因调控模式

JIPB:六倍体麻竹（Dendrocalamus latiflorus Munro）异源多倍体基因组的等位基因感知染色体规模组装

黄条金刚竹叶片形态发生的解剖机制

NG重磅综述：利用端粒到端粒的基因组组装解锁植物基因组学

组学上的人工智能应用

数据预处理中的One-Hot编码

试验设计中的平行和重复

竹类的研究历史简介

毛竹大小年形成原因探讨

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉