干货指南｜参考基因组选择指南

学术 2024-11-04 17:04 中国香港

点击蓝字关注我们

随着高通量测序技术的飞速进步，越来越多的物种基因组得到了精细的组装与详尽的注释，同时，同一物种的基因组版本也在不断更新和完善。当科研人员完成转录组测序后，常常面临一个选择难题：如何确定自己研究的物种是否已有可用的参考基因组，以及在多个版本中应选择哪一个作为分析的基础。以下是常用的参考基因组查询数据库及参考基因组选择指南，帮助我们解决这一问题：

一、

常见的参考基因组数据库

1. Ensembl：https://ftp.ensemblgenomes.ebi.ac.uk/pub/

2. NCBI：https://ftp.ncbi.nlm.nih.gov/genomes/

3. UCSC：https://genome-asia.ucsc.edu/cgi-bin/hgGateway

4. 植物基因组数据库

（1）JGI：https://phytozome-next.jgi.doe.gov/

（2）葫芦科：http://cucurbitgenomics.org/

5. 物种特有数据库

（1）花生：https://peanutbase.org/home

（2）棉花：https://www.cottongen.org/

（3）番薯：https://sweetpotao.com/

（4）拟南芥：http://www.arabidopsis.org/

（5）番茄：https://solgenomics.net/organism/solanum_lycopersicum/genome

（6）猕猴桃：https://kiwifruitgenome.org/

二、

如何查找目标物种的参考基因组

1. Ensembl 数据库

是由 European Bioinformatics Institute（EBI）与Wellcome Trust Sanger Institute（WTSI）共同合作开发的数据库。其注释信息比UCSC和NCBI的更完整更规范，易于转换为基因名称，便于分析使用；且注释版本持续更新发布，增强了分析的可重复性。是最推荐的参考基因组下载的数据库。当前版本的下载链接如下：

植物：https://ftp.ensemblgenomes.ebi.ac.uk/pub/plants/current/

动物：https://ftp.ensembl.org/pub/release-113/

真菌：https://ftp.ensemblgenomes.ebi.ac.uk/pub/fungi/current/

细菌：https://ftp.ensemblgenomes.ebi.ac.uk/pub/bacteria/current/

那如何查找目标物种的参考基因组呢？

（1）点击以下网址链接http://plants.ensembl.org/index.html 进入植物参考基因组查找页面，可点击左上角的箭头进入动物、真菌或细菌等参考基因组页面。

（2）点击view full list of all species 进入以物种名称排序的数据列表。

（3）在该列表中查找我们关注的物种，或者可以在右侧的方框中输入物种拉丁名进行检索。

（4）输入水稻日本晴拉丁名（Oryza sativa Japonica Group），点击最左侧的物种名称进入日本晴基因组信息的展示页面。

（5）点击Download DNA sequence (FASTA) 可进入参考基因组序列信息链接; 点击GFF3可进入参考基因组注释信息链接。

① 点击Download DNA sequence (FASTA)进入基因组序列链接后，我们会发现有多个类型的基因组序列文件，该如何选择呢？

基因组序列组装主要根据不同的组装形式和重复序列的不同处理方式进行划分。

不同组装形式：

toplevel：包含单倍型（会导致比对结果不准确，提升多重比对率）。

primary_assembly：包含 toplevel 类型中除了单倍型的所有序列，如果数据库中不包含primary_assembly 文件，则表明没有单倍型区域，和 toplevel 文件等同。

重复序列的不同处理方式：

dna：未处理的基因组序列。

dna_rm：用 RepeatMasker 工具识别处理的基因组序列，重复区和低复杂度区的碱基用 N 代替（大量的N）。

dna_sm：soft-masked，基因组序列的重复区和低复杂度区的碱基用小写字母代替。

使用STAR/hisat2等软件进行比对时，推荐使用 .dna.primary_assembly 版本，当数据库中不包含primary_assembly 文件时可以选择dna.toplevel 版本。点击基因组序列文件可直接下载，或者将鼠标放到对应文件上右键选择复制链接。

② 点击GFF3进入参考基因组注释信息链接，按需选择注释版本，只关注在染色体上的基因信息选择chr.gff3；关注所有基因信息则选择 .gff3。注释文件中的基因ID是Ensembl ID，基本都是以ENS开头，后接表示物种的符号，详细的物种符号表示可见链接http://asia.ensembl.org/info/genome/stable_ids/prefixes.html。

③ 将页面最上方的地址框中的gff3字段修改为gtf，即可进入GTF文件所在链接，选择与GFF3对应版本的GTF文件即可。

2. NCBI数据库

NCBI是National Center for Biotechnology Information的缩写，指美国国立生物技术信息中心。其包含的物种信息最全面，可以作为第二选择。

（1）点击以下链接https://www.ncbi.nlm.nih.gov/genome/ 进入NCBI参考基因组查找页面，输入水稻日本晴拉丁名（Oryza sativa Japonica Group）检索参考基因组信息。

（2）在弹出的页面中可以看到NCBI最为推荐的参考基因组（通常为最新，用【√】标注）及数据库中收录的该物种所有版本的基因组信息。包含基因组名称、GenBank编号、RefSeq 编号、物种名称、品种、组装水平、释放日期等。

（3）点击最左侧的基因组名称可跳转到该版本基因组的详细页面，包含基因组的组装信息、样本信息、注释信息等。

GenBank版本的基因组和RefSeq版本的基因组有什么区别呢，该如何选择？

① GenBank：编号通常以GCA_xxx 命名，一般由提交参考基因组版本的人员进行维护，gene ID 格式不一致，GFF/GTF注释文件可有可无。

② RefSeq：编号通常以GCF_xxx 命名，是由NCBI工作人员选取并进行维护的参考基因组，手动注释修正，高质量，包含GFF/GTF注释文件，gene ID通常以gene symbol 命名，在NCBI数据库中可查找到基因的详细信息。推荐优先选择。

（4）点击对应版本右侧的 Actions，选择 See more files on FTP 跳转到下载页面。

（5）选中文件，点击鼠标右键-复制链接，将基因组序列、GFF3、GTF文件的链接复制到沟通信息表中对应位置。如果下载链接中只包含 .gbff文件，通常是只提交了基因组组装序列未提交注释文件，此版本无法用于有参转录组分析。

三、

如何选择参考基因组版本

当目标物种有多个版本的参考基因组时，该如何选择呢？在基因组的描述信息页面或关联的已发表文章中查看比较以下信息：

1. 物种品系：选择和自己研究品种相近的参考基因组

2. 基因组组装水平：通常选择组装到染色体级别的参考基因组

3. 基因组的Scaffold N50 、Contig N50 ：通常N50越大表示组装质量越好

4. 基因组Gap数：通常Gap 数目越少表示组装越完整

5. 注释基因数量：通常注释基因数目越多表示注释越完整

综上所述，首选 Ensembl 数据库的参考基因组，NCBI RefSeq 数据库的其次。当有多个版本基因组时首先选择和研究品种相近的参考基因组，品种相同时结合基因组组装水平、序列N50、Gap数目、注释基因数目等综合进行选择。当常用的参考基因组数据库中无法检索到相关物种的参考基因组时，可通过检索文献进行目标物种参考基因组的查找、或者选择亲缘关系较近的物种的参考基因组、也可以选择做无参转录组分析。

往期精彩：

干货指南｜基因组Survey分析全攻略

干货指南｜什么！RNA质检又不合格！转录组测序取样建议

文献解读｜首个反刍动物绵羊T2T参考基因组发布

IF=150+ | 贝纳基因王牌产品T2T基因组项目文章合集

文章解读｜异源多倍体阿拉比卡咖啡的基因组和群体基因组揭示了现代咖啡品种的多样化历史

ONT测序质量值重大突破 | 中位值达Q28（准确性达到99.84%）

项目文章｜青岛百合首个完整线粒体基因组揭示了其独特的多染色体结构

Nature正刊！十二倍体甘蔗基因组发布！

武汉贝纳科技有限公司(下称"贝纳基因")成立于2012年，总部位于武汉高农生物园，是一家专注于Nanopore测序、二代测序和生物信息分析技术开发和应用的国家高新技术企业。核心团队拥有多年高通量测序、Nanopore测序和生物信息分析经验，在Nature和Science系列杂志发表多篇学术论文，博士、硕士学历员工占企业员工总数的72%。拥有自主测序平台（国内首批引进Nanopore PromethION平台）和专业的生物信息分析团队。

贝纳基因使用Nanopore平台完成全球第一个大型复杂植物基因组（菊花基因组）的组装和后续分析工作。提出并推动千种本草基因组计划，并构建药用植物基因组数据库，推动药材研究的发展。

贝纳基因使用Nanopore平台完成数千份细菌基因组、宏基因组测序和数据分析；完成数千份全长转录组和Direct转录组测序及分析。提出并推动基于Nanopore测序的万种微生物基因组完成图计划和十万人的Nanopore宏基因组研究计划。

贝纳基因开发了基于Nanopore平台的微生物检测体系，自主开发的数据库涵盖现已正式发表的所有微生物基因组，大型测序仪单机一次运行可以产生7.2T数据，小型便携式测序系统可用于临床检测和野外作业。

服务类型

网站：www.benagen.com

地址：武汉东湖新技术开发区高新大道888号高农生物园总部B区12C栋

电话：027-62435310

手机：15337161420

邮箱：service@benagen.com

贝纳课堂-Nanopore交流QQ群：992789813（本群已满）

贝纳课堂-Nanopore交流QQ群2：923119248

生物信息交流QQ群：198746977

客服QQ：3277498363

http://mp.weixin.qq.com/s?__biz=MzA3NDI2MzgzOQ==&mid=2650478085&idx=1&sn=6d342e5d8b31bd6706ed3e8933b99d6c

贝纳基因

贝纳基因拥有Nanopore测序平台，专业提供基因组、转录组、宏基因组、重测序、蛋白组和代谢组等服务。贝纳基因愿景是“多场景测序应用方案引领者”。

最新文章

项目文章｜ONT全长转录组+简单验证，牦牛生长发育机制研究轻松拿捏高分文章

品质性状研究利器：植物多组学解决方案

文献解读｜高质量现代大豆品种泛基因组和重测序揭示重要性状结构变异

Pore-C数据评估新方法与新指标：揭开多维基因组互作的奥秘

干货指南｜Hi-C辅助组装的实验分析全攻略

文献解读｜单倍型基因组和重测序揭示现代月季起源和育种历史

文献解读｜首个棉花T2T参考基因组揭示着丝粒进化和折叠胚胎形成的分子调控与演化机制

项目文章｜蘑菇病原真菌的基因组测序揭示其致病机制

项目文章｜转录组学和代谢组学联合揭示微塑料胁迫对葡萄生长的影响机制

干货指南｜Direct RNA测序m6A修饰结果一本通：结果解析，数据分析挖掘，实验验证

一文畅谈，何为“泛”基因组——泛基因组的样本选择

Science重磅：首个人类剪接体结构图谱揭示RNA剪接调控未解之谜

NG项目文章｜基因组所周永锋团队建立葡萄全基因组选择育种体系

干货指南｜参考基因组选择指南

CGM第449期：SynDiv：基于群体基因组的染色体共线性分析工具

一次测序，同时检测4种RNA修饰，贝纳基因SAR20 Direct RNA 测序强势上线

Plant Communications 项目文章 | 辣椒“遵辣1号”T2T基因组揭示转座子驱动的近着丝粒区域扩张和进化

干货指南｜基因组Survey分析全攻略

文献解读｜学龄前儿童肠道菌群与行为学之间的特异性关联

ACS高分项目文章｜山东大学发表黏细菌5-甲基吡嗪酮的生物合成及生理功能研究

干货指南｜一文教会你轻松掌握可变剪切结果的解读与运用

项目文章 | T2T项目文章再添佳作！河南中医药大学和山东省林草种质资源中心分别发表鲁山冬凌草、玫瑰T2T基因组研究成果

扬帆起航，共创未来——香港启航基因科技有限公司开业庆典圆满落幕

文献解读｜最全面的猪基因组结构变异图谱

干货指南｜什么！RNA质检又不合格！转录组测序取样建议

NC解读｜ONT和PacBio全长转录组测序揭示阿尔茨海默病模型中内嗅皮层的差异性剪接

基因科技新地标｜香港启航基因科技盛大开业，共绘基因科技蓝图！

文献解读｜现存和灭绝的兔耳袋狸基因组，改善了澳大利亚特有的有袋动物的保护工作

文献解读｜首个反刍动物绵羊T2T参考基因组发布

Nature子刊项目文章｜氧气通过维持EGLN1催化的IRF3脯氨酸羟化来增强抗病毒的先天免疫

Nature子刊项目文章｜T2T基因组及多组学分析阐明月季茶香的生物合成和释放机制

CGM第442期：鸡产蛋量性状的分子调控机制

风华正茂，锦绣河山｜贝纳基因国庆小长假放假通知

国产纳米孔你知道哪些？重磅综述:全球纳米孔测序发展十周年

突破性研究｜首个植物Nanopore全长全谱—228个辣椒全长转录组数据库

贝纳基因ONT超精度测序SAR Q20系列产品——SAR20 ONT重测序

贝纳基因ONT超精度测序SAR Q20系列产品——SAR20 ONT超长测序

CGM第438期：亚基因组间的同源置换对芸薹属多倍体作物驯化的贡献

贝纳基因ONT超高精度长读长测序SAR Q27系列产品—— SAR20宏基因组

喜报 | ONT宏基因组三连发！

贝纳基因ONT超高精度长读长测序SAR Q27系列产品——SAR25扩增子16S/18S/ITS

会议邀请 | CGM方法技术专题第二期

ONT宏基因组项目文章Microbiome | 揭示微生物宏代谢的确定性动态规律：一项对厌氧生物降解的多组学研究

开学季产品介绍——TAIL Iso-seq

贝纳基因ONT超精度测序SAR Q20系列产品——SAR20 全长lncRNA测序

开学季产品介绍——Nanopore全长转录组

贝纳基因ONT超精度测序SAR Q20系列产品——SAR20 全长定量转录组

花好月圆人团圆｜贝纳基因中秋节放假通知

开学季产品介绍——全长lncRNA测序

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉