来自RFLP探针的SNP
与感兴趣的性状相关的RFLP探针是SNP发现的最初来源。例如,通过对RFLP探针和xabc465相关序列的扩增、测序和分析,鉴定出来自T. speltoides的Lr47的酶切扩增多态性序列(CAPS) 标记 (PS10R/ L2)。同样,从cMWG682探针中也获得了基于SNP的CAPS标记,用于检测Ae ventricosa携带Lr37/Sr38/Yr17基因簇。同样,MWG798探针为来自Thinopyrum ponticum的Sr61杆锈病抗性的标记辅助选择(MAS)提供了SNP。虽然RFLP探针在开发小麦野生近缘高价值抗锈病基因的SNP标记中发挥了重要作用,但在前基因组测序时代,这是一个繁琐的过程,因为在测序、SNP检测和标记设计之前,需要通过DNA限制和杂交筛选探针。
来自表达序列标签(EST)的SNP
ESTs是功能基因的短cDNA片段,长约300- 1000bp。ESTs被用于体外和电脑数据库中的方法发现SNP。第一种方法涉及通过cDNA合成和测序进行SNP挖掘,而另一种方法涉及直接从公开可用的EST和cDNA数据库中进行SNP的挖掘。来自小麦ESTs SNP的CAPS标记在定位ASR茎秆抗锈病基因Sr35和广泛使用的多效性APR基因Lr34中发挥了重要作用。尽管ESTs已经成为鉴定SNP的重要资源库,但由于它们来自基因区域,它们只代表了基因组的很小一部分。
基因组文库中的SNP
基因组文库是指DNA收集,其中代表生物体基因组或cDNA的短至长的DNA片段被克隆到DNA载体[质粒或细菌人工染色体(BAC)上]并保存在细菌培养物中。单球绦虫、双球绦虫、乌拉尔图绦虫、伊布绦虫的几个物种特异性BAC文库是小麦(T. monococcum、T. dicoccoides、T. urartu、T. aestivum、Ae. Taushii、Ae. speltoides)基因组学研究的宝贵资源。
在全基因组测序(WGS)之前,这些基因组文库是开发物理图谱和克隆抗病基因的主要来源。随后,基因组克隆对于鉴定与抗锈病相关的SNP标记也至关重要。从基因组文库中筛选和测序克隆是缓慢而繁琐的,特别是在具有高度重复DNA和多倍体基因组的小麦中。但是,随着单个染色体的成功分离,通过生成染色体特异性文库,复杂性降低到染色体水平。此外,通过克隆的多维池化,减少了文库中检测特定克隆的重复筛选。一个很好的例子是,从面包小麦的D基因组祖先Ae tauschii AL8/78的461,706个BAC克隆的测序中鉴定出195,631个基因组特异性SNP。此外,利用杂交Ae tauschii材料AL8/78和AS75获得的定位群体对这些SNP标记进行遗传定位,并将其用于抗杆锈病基因SrTA10187的定位。随后,染色体3B特异性BAC文库的生成产生了SNP,这些SNP有助于在3B染色体上广泛部署的成株期抗秆锈病基因Sr2的精细定位。尽管费力、低通量和成本高,但基于基因组文库的方法在前基因组测序时代的SNP鉴定中发挥了重要作用。
小麦后基因组测序时代的SNP发现
2003年11月,在美国华盛顿举行的小麦基因组测序研讨会结束后不久,人们开始对广泛用于遗传研究的小麦品种“中国春”进行基因组测序。然而,通过生成染色体特异性BAC文库成功组装小麦3B染色体,引发了国际小麦测序联盟(International wheat Sequencing Consortium, IWGSC)的成立,并发布了中国春季近完整染色体水平参考。同样,通过野生二聚体(AABB)“Zavitan”和Ae tauschii (DD) accession AL8/78的测序,也获得了小麦四倍体和二倍体祖先种的参考基因组。因此,参考基因组的快速发布为越来越多的SNP发现和用于绘制小麦抗锈病等关键性状的高通量阵列铺平了道路。
来自全基因组短读测序的SNPs
使用短读测序平台生成的基因组序列检测到来自基因、重复和非重复基因组区域的数百万个SNP。例如,利用Roche454和SOLID对Ae.tauschii accessions AL8/78和AS75进行测序,分别在D基因组的基因序列、未鉴定的非重复区域和重复连接中捕获195,631,155,580和145,907个SNP。同样,利用BAC文库、WGS和光学定位,生成了A基因组二倍体小麦T. urartu (accession G1812)的高质量参考序列,鉴定出541,849个A基因组特异性SNP。与此同时,8个优质小麦品系的WGS鉴定出330万个SNP,其中分别有41.49%和10%位于A,B和D基因组。WGS还有助于检测从野生物种渗入面包小麦的外来片段的特异性SNP。
来自特定染色体的SNP分离和测序
虽然WGS对于基因组大小较小的生物体可能是一种可行的技术,但对于多倍体作物,如具有大基因组的小麦,它仍然是一件昂贵的事情。由于三个同源基因组序列之间的高度相似性,增加了复杂性。然而,随着特定染色体的成功流动分选,通过对3B染色体的分离和测序,复杂性降低了,其中从小麦品种Arina和Forno中鉴定出了1853214个3B染色体特异性SNP。VL404和WL711的4B染色体的单核苷酸多态性有助于提高Lr49区域的标记密度和分辨率。同样地,同样,对小麦- Ae umellulata基因渗入系的5D/5U重组染色体进行测序,鉴定出5U和5D染色体特异性SNP,用于定位Lr76和Yr70抗性基因。
基因分型测序的SNP
通过WGS发现SNP也需要多个品种或物种的测序,这仍然是昂贵和繁琐的。进一步的遗传研究,包括QTL定位、关联研究和多样性分析,几乎不需要全套的SNP。因此,引入了测序基因分型(GBS)策略,其中通过降低复杂性或靶向富集方法只关注基因组的一部分区域。有十几种技术可以降低复杂性。其中,最受欢迎的是使用ApeKI等单限制性内切酶产生的DNA片段测序。使用限制性内切位点相关DNA测序(Radseq)方法检测和绘制了两个乌拉尔图菌株G1812和G3146之间的430,979个SNP。随后,一种基于双酶的限制性方法也被用于绘制抗锈病基因,如Lr27/Sr2/Yr30、Lr37、Lr46/Yr29/Sr58、Lr81、Sr6和Sr17。最近,一种名为3D-GBS的三酶策略被引入大豆并进行了测试,与单酶ApeKI策略相比,其复杂性降低了四倍,并可能扩展到小麦。
来自转录组的SNP
转录组指的是RNA分子(如信使RNA、非编码RNA和小RNA),它们代表了大基因组的一小部分,由于其缩小的大小,转录组数据集也被用于挖掘SNP。最初,杂交和基于测序的方法被用来量化和绘制转录本。例如,利用转录组数据和基因表达序列分析(SAGE)技术,从小麦品种HD2329中检测到与Lr28抗性相关的SNP。然而,这种方法是昂贵的,产生的短标签,不能映射到参考基因组。RNA测序(RNA-seq)通过允许转录组的量化和定位来克服这一限制。从Excalibur、RAC875和Kukri三个小麦品种的转录组reads中检测到SNPs的平均密度为每569 bp 1个。公开可用的转录组数据的计算机挖掘也增强了小麦的SNP发现过程。除了六倍体小麦,RNA-seq方法也被用于鉴定小麦近缘的二倍体和四倍体的SNP。来自两个主要谱系的两个Ae. tauschii片段的RNAseq数据鉴定出约10K个非冗余D基因组特异性SNP。对147份乌拉尔图T. urartu的22,841个表达基因进行测序,共发现144,806个高质量SNP。同样,来自18个硬粒小麦和一个二粒小麦的RNA-seq读取导致鉴定出52,646个SNP。最近,散装分离分析与RNA-seq (BSR-seq)相结合,其中抗感池的RNA测序用于检测抗锈病的SNP和候选基因,如Yr15和SrTM4基因。
外显子组捕获的SNP
外显子组是指存在于基因组中的编码序列(也称为外显子),使用外显子的探针选择性地捕获,测序和分析,而RNAseq仅预测表达基因的编码序列。外显子组捕获首先应用于四倍体小麦品种T.dicoccoides和T. durum,针对3497个基因,其中鉴定出4386个SNP。使用Nimblegen阵列对8个英国小麦品种进行筛选,该阵列旨在捕获和表征50%的小麦外显子组(84 Mb),检测到511,439个SNP,其中99,945个根据其区分两个或多个品种的能力被归类为品种SNP。随后,基于Nimblegen阵列的捕获扩展到对包括栽培小麦及其野生近缘种在内的43个品种的小麦外显子组进行大规模筛选,产生921,705个SNP。该阵列还用于鉴定与抗条锈病基因Yr78相关的SNP。虽然探针是针对外显子设计的,但与RNA-seq相比,非目标变异也被观察到导致发现的SNPs数量显著增加,因为Esposito等人发现,只有26%的被鉴定的SNPs位于外显子中,而其余的则来自基因间区域。尽管与WGS和GBS相比,RNAseq和外显子组捕获更经济,但发现的SNP来自保守的基因簇,不足以构建高分辨率的遗传图谱,这需要均匀分布的全基因组标记。
来自全基因组分析的SNPs
在小麦及其野生近缘种的参考基因组发布后不久,随后对多个小麦品系的基因组进行解码,生成泛基因组。Montenegro et al (2017)利用18个品种的WGS数据集构建了小麦的第一个泛基因组组装,其中除了基因/基因组区域的其他结构变异外,还鉴定了3640万个SNP。随后,“10+小麦基因组计划”产生了10个六倍体小麦品种的泛基因组组装,即ArinaLrFor、Jagger、Julius、LongReach Lancer、CDC Landmark、Mace、Norin61、SY Mattis、CDC Stanley、PI190962 (spelt wheat)和5个英国小麦品系的支架组装,即Cadenza、Claire、Paragon、Robigus和Weebill1。在这里,除了多个对端Illumina测序外,还使用10X Genomics Chromium和Hi-C平台来生成染色体水平的泛基因组组装。利用10+小麦泛基因组和单倍型分析,Dang等(2022)检测到与抗条锈病基因Yr78相关的SNP。