名称的优先顺序
在使用其他物种名称时,如果不同物种中存在不同的名称,应该使用哪个名称?一个基因序列可能有多个名称,例如,水稻的MADS22基因相当于大麦的BM10基因和玉米的ZMM19基因(位于TUNICATE1位点)。此外,这个基因序列以前在小麦中被命名为SVP1。我们建议在可能的情况下,优先使用单一基因名称,并在手稿中提及替代命名法,以帮助跨物种比较。在可能的情况下,应该优先考虑已经被赋予功能的历史上发表的小麦名称。如果没有历史名称,那么建议使用与正在研究的小麦基因功能特征最接近的基因名称。
在发表文章时,作者在提及特定的小麦基因时,必须引用完整的基因名称和符号,以及来自于某个基因组注释的基因模型标识符(和相关的转录本)(例如,六倍体小麦的中国春RefSeqv1.1 TraesCSXX02GXXXXXX基因模型和四倍体小麦的Svevo v1.0 TRITDXXvXXXXXX基因模型;Maccaferri等,2019)。在可能的情况下,基因模型标识符应来自于包含该基因注释版本的小麦品系,其中转录本是基于RNA-seq读取或互补DNA序列确定的。由于小麦的高质量参考基因组装配来自于中国春品种,如果它具有功能等位基因,则应使用其基因模型。如果某个基因在中国春中未被注释,或者它携带非功能等位基因,那么应使用来自另一个具有功能等位基因的品种的基因模型标识符(例如,来自10+小麦基因组项目的品种;Walkowiak等,2020),以及相关的基因组装配登录号(例如,GCA_900519105.1)。如果发现了一个全新的序列,则应对该序列进行注释并将其存储在国际序列数据库合作组织的一个存储库中(见www.insdc.org),并在相关出版物中提供登录号。
编码相似大分子结构的基因
指定相似非酶蛋白质结构、催化相同或相似反应的酶或相似RNA分子的非等位基因位点应分配相同的基本符号。每个此类基因的符号的其余部分应根据两种程序之一进行制定,具体取决于是否有证据将该基因分配给同源集合。当命名超出已定义的Triticeae基因组时,可以在名称前加上物种缩写,例如,OsNAM1被建议作为小麦基因NAM-A1的水稻直系同源基因。其他物种的缩写(例如,Ta或Tt分别代表T. aestivum或T. turgidum)在比较基因组学中也可以使用。
同源异型组成员的基因
基本符号后应跟一个连字符(-),表示该位点所属基因组的公认符号和同源集合编号,编号形式为阿拉伯数字。阿拉伯数字表示特定基因或基因家族成员被识别的顺序,不应与其所在的染色体混淆。例如,FT-A1、FT-B1和FT-D1分别表示阿拉伯芥FLOWERING LOCUS T(FT)基因的第一个指定同源集合的小麦同源基因在A、B和D基因组中的成员。如果是单个成员集合,默认编号为1。
关于结构基因之间系统发育关系的证据可以通过以下方面的比较研究获得:(1)基因的核苷酸序列和其他分子特性,(2)肽序列,(3)基因产物的物理和/或生物化学特性,以及(4)染色体内图谱位置和/或基因在同源染色体或片段中的物理位置。有关标准的示例,请参见哈特(1987)。用于将基因指定为同源基因组成员的证据应在提出该基因座符号的出版物中说明。
其它基因座
在没有证据将一个基因座分配给同源同素异形集的情况下,该基因座应该用一个阿拉伯数字在一个连续的系列中指定。如果随后获得了将该基因座分配到同源等位基因组的证据,则该基因座应根据“同源等位基因组成员的基因”部分中的程序重新命名。这同样适用于通过同源性鉴定的基因,例如,如果在小麦中鉴定出两个拟南芥SEP 1同源物,则它们的A基因组拷贝将是SEP 1-A1和SEP 1-A2。
单倍型
单倍型指的是长度不确定的DNA序列,可能包括可变的上游和下游区域,这些界限在报告时应予以定义。单倍型的形式为_hX,紧随相关位点或等位基因的名称之后;小写斜体的h表示单倍型,X为顺序编号。单倍型代表序列变异,其具体功能要么(1)未知,要么(2)与特定表型相关,因此可以与等位基因相关联。单倍型将被视为其首次报告的出版物或项目所独有的,不会作为一个统一的目录进行维护。这意味着每个研究或项目可能会有自己定义的单倍型列表。
图1 小麦基因命名的一般过程
图2 具有已知表型(VRN-A1)和后来克隆(TaAP-A1)的基因的示例
图3 基于与来自另一植物物种的基因的序列同源性命名的基因的示例
表型未知的单倍型
这些单倍型应带有大写斜体的位点名称,后跟_hX。例如,一项研究调查了阿拉伯芥BRASSINOSTEROID-INSENSITIVE 1基因(TaBRI-A1)在小麦A基因组同源基因中的等位变异。通过在一组样本中调查TaBRI-A1上下游±2 kb的区域,识别出四种不同的序列(单倍型)。这些具有未知表型效应的四种单倍型应列为TaBRI-A1_h1到TaBRI-A1_h4。
与特定表型相关的单倍型
如果识别出一个单倍型并且可以为某个位点分配一个新的表型,则该单倍型将采用等位基因名称(参见“等位基因”部分中的描述)。如果在指定的等位基因内鉴定出额外的序列变体,则这些变体应携带相关的等位基因名称,后跟_hX,例如Sr9a_h1和sr9a_h1分别描述了赋予抗性和易感性的等位基因内的第一个DNA变体。Rht-A1 a_h3表示Rht-A1 a等位基因内的第三单倍型(参见“等位基因”部分中的进一步实例)。
等位基因
等位基因是基于表型的。表型可以是“植物表型”,在这种情况下,它们被定义为植物外观、性能或响应性的变化,或者是“分子表型”,即大分子的生化、分子功能或物理性质的改变,这些改变与参考大分子的描述特征不同。“分子表型”可以包括导致氨基酸变化的序列变异,这些变化影响蛋白质功能、蛋白质质量或电泳迁移率(例如,谷蛋白),这些变化对于谷物质量参数或特定蛋白质尤为重要(参见“蛋白质和酶变异基因命名指南”部分)。需要注意的是,仅用于通过遗传标记(例如KASP检测)区分序列的同义突变或多态性不被视为等位基因,应被指定为单倍型。此指南的例外情况是改变基因表达的同义突变,例如微RNA互补位点(例如Q基因中的变化)。同样,如果一个位点包含的突变通过破坏顺式调控区域(例如启动子、内含子区域)产生表型,并且这种变化影响基因表达,则可以将其视为等位基因。在出版物中,作者应明确用于分配等位基因的植物或分子表型的依据。
不同的天然存在的基因等位基因通过基因名称后的小写斜体字母来指定。例如,Rht-B1a和Rht-B1b是RHT-1基因在B基因组中的两个等位基因。每个发现的等位基因应指定一个原型基因型,因为在每个等位基因类别中可能存在未被检测方法发现的变异。目前,中国春被优先作为等位基因“a”的原型。如果在另一个基因型中发现的等位基因与原型基因型中的等位基因不同,并且显示出与原型“a”等位基因在形态/表型上有差异,则应分配一个新的小写斜体字母并指定一个原型基因型。在提及等位基因时,显性、半显性或共显性等位基因应使用首字母大写的位点名称(例如Rht-B1b),而隐性等位基因,包括无功能等位基因,应使用全小写字母的位点名称(例如rht-B1a)。新的等位基因应按字母顺序依次使用。在多等位基因的情况下,可以使用首字母大写的相关等位基因,而无功能等位基因可以使用小写字母。
鉴于等位基因是基于表型的,只有在通过特定的表型检测能够区分出与已知表型(即等位基因)不同的新等位基因时,才应分配新的等位基因。当等位基因首次被描述或发表时,作者应解释这种表型的依据(例如,基于植物的表型或上述的分子表型)。或者,如果为已知等位基因识别出一个序列变异,但结果是相同的表型,那么这将被指定为特定等位基因内的单倍型。例如,红颖片(RG)位点有两个历史定义的等位基因(Rg1a = 红色和rg1b = 白色)。RG的克隆鉴定出该基因的几个单倍型(每个单倍型有几个氨基酸替换),这些单倍型都导致红色颖片表型。因此,这些单倍型都在指定的Rg1a等位基因内,应命名为Rg1a_h1、Rg1a_h2等。同样,鉴定出多个导致白色颖片的序列变异(单倍型);这些单倍型应命名为rg1b_h1、rg1b_h2等(Abrouk等,2021)。
诱导突变体和基因编辑品系
在单倍型的情况下(在“具有相似表型效应的基因”部分中),特定基因座的诱导突变形式(例如EMS诱变或基因编辑)将在相关基因或等位基因名称之后采用_mX的形式;斜体m表示突变体,X是连续数字(例如AGL12-A1_m1,AGL12-A1_m2)。这种命名法应用于基因座的独立突变或基因编辑版本,用于确认与特定性状相关的基因功能;独立研究产生的其他等位基因应按连续升序编号。该系统将有助于引入多个突变体或基因编辑品系以供出版,这些品系将不在小麦基因目录中。相反,我们建议介绍此类突变或基因编辑品系的出版物应包括列出多个突变和等位基因的表格。
当从基因组中靶向诱导局部病变(TILLING)群体中选择诱导突变体时,应根据其在群体中的身份来引用突变体系,例如Cadenza1715,Kronos2267。在随后研究TILLING系及其衍生物的感兴趣表型时,可以按照“基本符号”部分的描述识别相关基因,并根据“连锁群体和基因组同源区域”部分开头的指南命名突变体系。当在出版物中首次介绍给定基因的无功能和非同义突变体时,原始和替换氨基酸的位置应在突变单倍型标识符后用括号写明,例如vrn-A1_m1(missense,V6M)或vrn-A1_m2(null,W91*)。对于使用基因编辑技术(例如CRISPR-Cas9,TALENs)生成的突变体,应描述每个系中改变或删除的碱基,如果编辑用于改变编码蛋白质中的特定氨基酸,则应提供此信息。鉴于等位基因是基于植物或分子表型的,并且如“等位基因”部分详细描述的那样,只有当突变导致位点序列的独特变化且未在其他等位基因中发表时,突变单倍型才应被指定为新型(例如_m1,m2)。
在诱导突变体更广泛地重要或随后用于育种的情况下,WGC可能会批准一个等位基因名称,将_mX标识替换为小写字母,如“等位基因”部分所述。
基因复合物
基因复合体由基因紧密连锁的功能相关基因组成。无论是由几个还是多个基因组成,一个基因复合体都应该被赋予一个符号,按照“小麦和相关物种生化分子位点命名指南”一节中描述的程序。组成基因复合体的单个基因可以通过在基因座名称中添加连字符(-)和阿拉伯数字来命名。例如,GLU-A1-1和GLU-B1-1分别表示编码x型谷蛋白-1蛋白的A-和B-基因组基因,而GLU-A1-2和GLU-B1-2分别表示编码y型谷蛋白-1蛋白的A-和B-基因组基因。作为基因复合物组分的基因的不同等位基因可以按照“基因指定相似大分子的结构”部分中描述的系统来指定,但是在基因指定之后是斜体字母而不是基因座指定。例如,Glu-A1-1a表示编码x型麦谷蛋白-1蛋白的中国春A基因组等位基因。
直到最近,Triticeae酶和蛋白质编码基因通常是基于对缺失和/或包含额外整条染色体或端粒体的非整倍体菌株的研究来初步识别和分配名称的。因此,可以获得证据表明一个染色体臂可以产生两种或更多相似的酶或蛋白质启动子,但没有遗传证据表明这些启动子是单个基因的产物、基因复合体成员的不同基因的产物,还是两个或多个不属于基因复合体的基因的产物。在这些情况下,只有在重组证据表明另有情况之前,才会为相似的蛋白质或酶分配一个染色体臂的位点名称。随着中国春和其他小麦品种或系的多个染色体级别组装的新基因组资源的出现,研究人员应在其基因复合体的定义中包括这些信息。作者应使用这些基因组工具,并在相关出版物中包括用于定义和命名基因复合体的标准。
伪基因
伪基因是指一种基因组序列,它类似于另一个基因但存在缺陷(即开放阅读框包含一个过早的终止密码子,被截短,或与功能性等位基因相比高度退化)(Vanin 1985;Cheetham等,2020)。伪基因可以单独存在,也可以作为一个簇靠近功能性基因拷贝(或基因组的其他地方)存在。伪基因的形式为_pX,紧随相关位点或等位基因的名称之后;小写斜体的p表示伪基因,X为顺序编号。例如,RG-B1_p1可能指的是在1B染色体上颖片颜色的RG1(RG-B1)位点的第一个记录的伪基因。需要注意的是,伪基因可能会被转录,研究人员在命名伪基因时应注意这一点。伪基因应与涉及基因拷贝数变异的等位基因区分开来,后者应按照“等位基因”部分的详细指南命名。只有在能够识别为伪基因的情况下,才应指定为伪基因。
蛋白质
大分子的基本符号应与编码该大分子的位点或位点的基本符号相同(参见“基因名称”部分),只是符号中的每个字母应为大写罗马字母。对于由同源位点集合成员编码的大分子,表型符号应由基本符号后跟连字符和基因型符号中的相同阿拉伯数字组成。例如,ADH-1同源基因位点集合的产物被指定为ADH-1。该家族的蛋白质同源物应命名为ADH-A1、ADH-B1和ADH-D1,不使用斜体。对于有位点和基因名称的产物(例如VRN-A1和AP1-A1),可以使用非斜体的蛋白质名称(例如VRN-A1、AP1-A1),并在给定的出版物中一致使用一个版本。
表1 VRN-A1基因座的基因命名示例