干货指南|参考基因组选择指南

学术   2024-11-04 17:04   中国香港  

点击蓝字关注我们




随着高通量测序技术的飞速进步,越来越多的物种基因组得到了精细的组装与详尽的注释,同时,同一物种的基因组版本也在不断更新和完善。当科研人员完成转录组测序后,常常面临一个选择难题:如何确定自己研究的物种是否已有可用的参考基因组,以及在多个版本中应选择哪一个作为分析的基础。以下是常用的参考基因组查询数据库及参考基因组选择指南,帮助我们解决这一问题:


一、

常见的参考基因组数据库


1. Ensembl:https://ftp.ensemblgenomes.ebi.ac.uk/pub/

2. NCBI:https://ftp.ncbi.nlm.nih.gov/genomes/

3. UCSC:https://genome-asia.ucsc.edu/cgi-bin/hgGateway

4. 植物基因组数据库

(1)JGI:https://phytozome-next.jgi.doe.gov/

(2)葫芦科:http://cucurbitgenomics.org/

5. 物种特有数据库

(1)花生:https://peanutbase.org/home

(2)棉花:https://www.cottongen.org/

(3)番薯:https://sweetpotao.com/

(4)拟南芥:http://www.arabidopsis.org/

(5)番茄:https://solgenomics.net/organism/solanum_lycopersicum/genome

(6)猕猴桃:https://kiwifruitgenome.org/


二、

如何查找目标物种的参考基因组


1. Ensembl 数据库

是由 European Bioinformatics Institute(EBI)与Wellcome Trust Sanger Institute(WTSI)共同合作开发的数据库。其注释信息比UCSC和NCBI的更完整更规范,易于转换为基因名称,便于分析使用;且注释版本持续更新发布,增强了分析的可重复性。是最推荐的参考基因组下载的数据库。当前版本的下载链接如下:

植物:https://ftp.ensemblgenomes.ebi.ac.uk/pub/plants/current/

动物:https://ftp.ensembl.org/pub/release-113/

真菌:https://ftp.ensemblgenomes.ebi.ac.uk/pub/fungi/current/

细菌:https://ftp.ensemblgenomes.ebi.ac.uk/pub/bacteria/current/


那如何查找目标物种的参考基因组呢?

(1)点击以下网址链接http://plants.ensembl.org/index.html 进入植物参考基因组查找页面,可点击左上角的箭头进入动物、真菌或细菌等参考基因组页面。

(2)点击view full list of all species 进入以物种名称排序的数据列表。



(3)在该列表中查找我们关注的物种,或者可以在右侧的方框中输入物种拉丁名进行检索。



(4)输入水稻日本晴拉丁名(Oryza sativa Japonica Group),点击最左侧的物种名称进入日本晴基因组信息的展示页面。



(5)点击Download DNA sequence (FASTA) 可进入参考基因组序列信息链接; 点击GFF3可进入参考基因组注释信息链接。



① 点击Download DNA sequence (FASTA)进入基因组序列链接后,我们会发现有多个类型的基因组序列文件,该如何选择呢?

基因组序列组装主要根据不同的组装形式和重复序列的不同处理方式进行划分。


不同组装形式:

toplevel:包含单倍型(会导致比对结果不准确,提升多重比对率)。


primary_assembly:包含 toplevel 类型中除了单倍型的所有序列,如果数据库中不包含primary_assembly 文件,则表明没有单倍型区域,和 toplevel 文件等同。


重复序列的不同处理方式:

dna:未处理的基因组序列。

dna_rm:用 RepeatMasker 工具识别处理的基因组序列,重复区和低复杂度区的碱基用 N 代替(大量的N)。

dna_sm:soft-masked,基因组序列的重复区和低复杂度区的碱基用小写字母代替。


使用STAR/hisat2等软件进行比对时,推荐使用 .dna.primary_assembly 版本,当数据库中不包含primary_assembly 文件时可以选择dna.toplevel 版本。点击基因组序列文件可直接下载,或者将鼠标放到对应文件上右键选择复制链接。



② 点击GFF3进入参考基因组注释信息链接,按需选择注释版本,只关注在染色体上的基因信息选择chr.gff3;关注所有基因信息则选择 .gff3。注释文件中的基因ID是Ensembl ID,基本都是以ENS开头,后接表示物种的符号,详细的物种符号表示可见链接http://asia.ensembl.org/info/genome/stable_ids/prefixes.html。



③ 将页面最上方的地址框中的gff3字段修改为gtf,即可进入GTF文件所在链接,选择与GFF3对应版本的GTF文件即可。




2. NCBI数据库

NCBI是National Center for Biotechnology Information的缩写,指美国国立生物技术信息中心。其包含的物种信息最全面,可以作为第二选择。

(1)点击以下链接https://www.ncbi.nlm.nih.gov/genome/ 进入NCBI参考基因组查找页面,输入水稻日本晴拉丁名(Oryza sativa Japonica Group)检索参考基因组信息。



(2) 在弹出的页面中可以看到NCBI最为推荐的参考基因组(通常为最新,用【√】标注)及数据库中收录的该物种所有版本的基因组信息。包含基因组名称、GenBank编号、RefSeq 编号、物种名称、品种、组装水平、释放日期等。



(3)点击最左侧的基因组名称可跳转到该版本基因组的详细页面,包含基因组的组装信息、样本信息、注释信息等。



GenBank版本的基因组和RefSeq版本的基因组有什么区别呢,该如何选择?

① GenBank:编号通常以GCA_xxx 命名,一般由提交参考基因组版本的人员进行维护,gene ID 格式不一致,GFF/GTF注释文件可有可无。

② RefSeq:编号通常以GCF_xxx 命名,是由NCBI工作人员选取并进行维护的参考基因组,手动注释修正,高质量,包含GFF/GTF注释文件,gene ID通常以gene symbol 命名,在NCBI数据库中可查找到基因的详细信息。推荐优先选择。


(4)点击对应版本右侧的 Actions,选择 See more files on FTP 跳转到下载页面。



(5)选中文件,点击鼠标右键-复制链接,将基因组序列、GFF3、GTF文件的链接复制到沟通信息表中对应位置。如果下载链接中只包含 .gbff文件,通常是只提交了基因组组装序列未提交注释文件,此版本无法用于有参转录组分析。



三、

如何选择参考基因组版本

当目标物种有多个版本的参考基因组时,该如何选择呢?在基因组的描述信息页面或关联的已发表文章中查看比较以下信息:

1. 物种品系:选择和自己研究品种相近的参考基因组

2. 基因组组装水平:通常选择组装到染色体级别的参考基因组

3. 基因组的Scaffold N50 、Contig N50 :通常N50越大表示组装质量越好

4. 基因组Gap数:通常Gap 数目越少表示组装越完整

5. 注释基因数量:通常注释基因数目越多表示注释越完整


综上所述,首选 Ensembl 数据库的参考基因组,NCBI RefSeq 数据库的其次。当有多个版本基因组时首先选择和研究品种相近的参考基因组,品种相同时结合基因组组装水平、序列N50、Gap数目、注释基因数目等综合进行选择。当常用的参考基因组数据库中无法检索到相关物种的参考基因组时,可通过检索文献进行目标物种参考基因组的查找、或者选择亲缘关系较近的物种的参考基因组、也可以选择做无参转录组分析。








往期精彩:


干货指南|基因组Survey分析全攻略

干货指南|什么!RNA质检又不合格!转录组测序取样建议

文献解读|首个反刍动物绵羊T2T参考基因组发布

IF=150+ | 贝纳基因王牌产品T2T基因组项目文章合集

文章解读|异源多倍体阿拉比卡咖啡的基因组和群体基因组揭示了现代咖啡品种的多样化历史

ONT测序质量值重大突破 | 中位值达Q28(准确性达到99.84%)

项目文章|青岛百合首个完整线粒体基因组揭示了其独特的多染色体结构

Nature正刊!十二倍体甘蔗基因组发布!




武汉贝纳科技有限公司(下称"贝纳基因")成立于2012年,总部位于武汉高农生物园,是一家专注于Nanopore测序、二代测序和生物信息分析技术开发和应用的国家高新技术企业。核心团队拥有多年高通量测序、Nanopore测序和生物信息分析经验,在Nature和Science系列杂志发表多篇学术论文,博士、硕士学历员工占企业员工总数的72%。拥有自主测序平台(国内首批引进Nanopore PromethION平台)和专业的生物信息分析团队。


贝纳基因使用Nanopore平台完成全球第一个大型复杂植物基因组(菊花基因组)的组装和后续分析工作。提出并推动千种本草基因组计划,并构建药用植物基因组数据库,推动药材研究的发展。


贝纳基因使用Nanopore平台完成数千份细菌基因组、宏基因组测序和数据分析;完成数千份全长转录组和Direct转录组测序及分析。提出并推动基于Nanopore测序的万种微生物基因组完成图计划和十万人的Nanopore宏基因组研究计划。


贝纳基因开发了基于Nanopore平台的微生物检测体系,自主开发的数据库涵盖现已正式发表的所有微生物基因组,大型测序仪单机一次运行可以产生7.2T数据,小型便携式测序系统可用于临床检测和野外作业。


服务类型



网站:www.benagen.com
地址:武汉东湖新技术开发区高新大道888号高农生物园总部B区12C栋
电话:027-62435310 
手机:15337161420
邮箱:service@benagen.com

贝纳课堂-Nanopore交流QQ群:992789813(本群已满)

贝纳课堂-Nanopore交流QQ群2:923119248

生物信息交流QQ群:198746977

客服QQ:3277498363


贝纳基因
贝纳基因拥有Nanopore测序平台,专业提供基因组、转录组、宏基因组、重测序、蛋白组和代谢组等服务。贝纳基因愿景是“多场景测序应用方案引领者”。
 最新文章