最全植物基因组数据平台 IMP中文教程（核基因组更新到 1000 个植物）

学术 2024-07-26 21:39 英国

药用植物因其潜在的抗肿瘤、抗炎和抗氧化特性，在民族医学和传统医学中引起了极大的关注。基因组测序和合成生物学的最新进展重新激发了人们对这些天然产物的兴趣。尽管有很多药用植物的基因组和转录组测序数据，但缺乏可公开访问的基因注释和表格格式的基因表达数据，这不利于它们的有效利用。为了解决这一紧迫问题，我们开发了IMP (Integrated Medicinal Plantomics)整合药用植物组学平台（https://www.bic.ac.cn/IMP 点击阅读原文直接跳转）。

IMP收录了1007个高质量的基因组（预期收录所有植物的基因组，目前已收录1007 个），整理了848,565,672个基因，以及2,158个转录组测序样本，涵盖了多个器官、组织、发育阶段和胁迫刺激。通过集成的10个分析模块，用户可以简单地在IMP中探索基因的注释、序列、功能、分布和表达。IMP的开发和使用将会从基础数据层面促进药用植物分子代谢途径的解析，进而在推动合成生物学的发展、促进药物发现和药物生产的天然来源的探索方面发挥重要作用。

IMP 针对收录的数据提供了 10 个功能分析模块，示例性结果如下图，包括多基因表达图谱的绘制、共表达基因的搜寻和鉴定、基因簇的展示、BLAST 序列搜索、多序列比对、在线差异基因分析（样品相关性热图、差异基因热图和火山图）、GO/KEGG富集分析、GSEA 富集分析、IGV 基因组浏览器展示、引物设计、序列提取等。

具体见 NAR | 中医科学院陈同等开发整合药用植物组学平台 IMP

IMP 数据库基本介绍

数据平台访问地址https://www.bic.ac.cn/IMP/。首页采用平面组合布局，分为导航、网站描述、统计信息和功能展示 4 个部分。

Logo 设计体现药物特色，药葫芦+DNA 双螺旋体现药用植物分子信息，辅以祥云标识，展示中国特色；
轮播图和文字描述网站特色；
首页的搜索为全局检索，用户输入基因名字、通路信息或任意基因功能相关单词即可搜索目标基因，开启网站的探索之旅；
右侧 2 个视频图标可以跳转当前页面可用功能的具体描述：
国内跳转 B 站，国外跳转 YouTube 平台。
中间 4 个图标列出数据库收录数据的统计信息：
基因数目、基因碱基数、样品数和物种数目。
下面 12 个模式图列出网站的主要功能和功能跳转。
最后是网站的更新日志。

基于功能描述、注释或基因名字的全局搜索

在首页的全局搜索框中输入基因的名字、基因的功能描述或基因的 GO 注释/KEGG通路注释的信息，即输入任何文字都可以去匹配出关注的基因（当然也有一些文字什么都匹配不出来）。比如默认选中的物种是穿心莲，默认输入的文字是cytochrome p450，我们需要做的就是点击Submit 提交一下，新标签页会出现搜索结果。

如果碰到页面不出来的情况下，请看下浏览器最上部菜单栏下面是否有窗口被拦截的提示。

搜索结果页面的标识条，会用红字标记搜索的文字信息，蓝字标记选择的物种信息。下面的表格列出所有的搜索结果，分页展示：

可以选择一页展示的条目数增减搜索结果的数目，也可以选择展示所有条目。
可以在右上角搜索框进行二次检索，进一步聚焦要关注的基因。
右上角也可以调节表格中展示哪些列，默认只有 2 列信息，可加列。

独特的 Send to 快捷操作

很多物种的基因名字都是 ID 类似的编号，通常记不住。IMP 可以通过文字或序列的方式搜索出一系列相关基因，选择后，点击Send to 就可以把这些目标基因集发送到对应的功能模块，实现免输入 Gene ID的快速操作。比如查看搜索出的 CYP450 的整体表达信息、基因组的分布信息、批量序列提取、引物设计和多序列比对等。

以单基因为中心的详情页面展示

页面分为 3 个部分：

第一部分展示基因的基本信息，包括名字信息、功能描述信息和序列信息。

第二部分展示基因在不同数据集的表达图谱信息。

用户可以选择数据的预处理方式、图形的布局、箱体的排序、数据集来调整展示的内容。
同时可以通过padding调整图的左、下、右的空间，以免发生文字溢出。
最终的截图图可导出SVG格式，用于文章组图。
SVG 图也可以在 BIChttps://www.bic.ac.cn/BIC/ 的 SVGEdit 平台进行简单编辑 http://www.ehbio.com/SVGEdit/editor/。

第三部分展示基因的结构（内含子、外显子、UTR 等信息）和蛋白功能域信息。

多基因表达图谱

可以自己按页面选择物种、数据集、样品（非必选的选项如果不选，默认是全选）、输入基因，也可以从搜索结果中直接带过来基因列表。

模糊搜索：支持根据基因的功能描述关键词进行模糊搜索，获取基因名，用于研究一类基因的表达图谱。

提交后获得基因表达图谱展示。

用户可以跳转图形的 padding 信息和高度信息
可视化结果可以导出 SVG 格式
作图数据可以下载，导入 ImageGP/BIC平台进行再次分析

Gene fishing 调取表达模式相近的基因

选择物种、Assay type、匹配模式，输入基因名（可以通过Send to功能从其它页面发送过来），提交后获得一个相关性网络图和对应的结果数据。

GO/KEGG 富集分析 {#gokegg}

用户选择物种，输入基因名字，即可进行GO/KEGG富集分析。阅读推文https://mp.weixin.qq.com/s/BCB16M4yI5Qa1tKyZy7WMg或查看视频https://www.bilibili.com/video/BV1rD4y1272a?p=4了解 GO/KEGG 富集分析的基本原理。

点击后，可调整富集分析结果的配色方案、选择富集的条目进行展示。也可以下载表格文件，到高颜值免费在线绘图平台 ImageGP/BIC https://www.bic.ac.cn/BIC进行自由绘制。

GSEA 富集分析

GSEA 富集分析的输入会麻烦一些，目前只支持包含一列基因和一列排序值的 2 列矩阵格式；排序值可以是常见的log2(fold change)，p-value或也可以是其他定量值。

阅读推文https://mp.weixin.qq.com/s/WiYUUALSmb9v5gYVxmjwjA或查看视频https://www.bilibili.com/video/BV1rD4y1272a?p=5了解 GSEA富集分析的输入数据、原理和结果解读。

默认绘制最富集的 2 条通路在一张图上，可以自己选择绘制哪些通路，也可以将通路绘制在多张图上。

BLAST序列比对和搜索

BLAST 是鼎鼎有名的序列搜索工具，这里支持

BLASTN: nucleotide to nucleotide
TBLASTN: protein to translated nucleotide
BLASTP: protein to protein
BLASTX: translated nucleotide to protein

非模式物种常常没有统一的Gene Symbol，使用的是各种意义不明的 ID，序列搜索是把文献或私藏的序列映射到 IMP 或在 IMP 中搜索序列相似基因的好方法。这就是 BLAST 功能所做的。

IMP 的 Blast 功能支持用户输入单条或多条 FASTA 序列进行搜索，用户也可以选择一个或多个或全部数据集。Advanced parameter处可以设置更多匹配控制参数。

HTML格式的输出会包含匹配区域的序列比对信息。如果用户输入了多条查询序列，可在Results for后面的下拉框中进行选择切换。

Table格式简洁明确地列出每条查询序列在数据库中的匹配序列，可以把匹配出的序列通过Send to功能发送到更多工具页面，快捷使用。

因为 BLAST自身的问题，如果用户选了多个数据库文件，当前会强制输出 Table 格式。正在根 BLAST 沟通中，还未解决。

BLAST 参数参考

BLASTN 的匹配得分除以错配罚分 (abs(reward/penalty))的商（比值）越大表示允许的序列直接的匹配度越小。比值为 0.33 等同于序列相似度大于 99%；比值为 0.5 等同于序列相似度大于 95%；比值为 1 等同于序列相似度大于 75%。

It is important to choose reward/penalty values appropriate to the sequences being aligned with the (absolute) reward/penalty ratio increasing for more divergent sequences. A ratio of 0.33 (1/-3) is appropriate for sequences that are about 99% conserved; a ratio of 0.5 (1/-2) is best for sequences that are 95% conserved; a ratio of about one (1/-1) is best for sequences that are 75% conserved
REF: https://www.ncbi.nlm.nih.gov/books/NBK279684/

The reward/penalty values are ordered from most to least stringent, with the more stringent values better suited for alignments with high sequence identity.

reward/penalty	gap costs (open/extend)	default MegaBLAST gap costs (open/extend)
1/-5	3/3	0/5.5
1/-4	1/2, 0/2, 2/1, 1/1	0/4.5
2/-7	2/4, 0/4, 4/2, 2/2	0/8
1/-3	2/2, 1/2, 0/2, 2/1, 1/1	0/3.5
2/-5	2/4, 0/4, 4/2, 2/2	0/6
1/-2	2/2, 1/2, 0/2, 3/1, 2/1, 1/1	0/2.5
2/-3	4/4, 2/4, 0/4, 3/3, 6/2, 5/2, 4/2, 2/2	0/4
3/-4	6/3, 5/3, 4/3, 6/2, 5/2, 4/2	N/A
4/-5	6/5, 5/5, 4/5, 3/5	N/A
1/-1	3/2, 2/2, 1/2, 0/2, 4/1, 3/1, 2/1	N/A
3/-2	5/5	N/A
5/-4	10/6, 8/6	N/A

引物设计

用户可以通过 3 种方式锁定自己的目标序列：基因组位置、序列、基因 ID，IMP 会提取对应的序列并采用 Primer3根据设定的参数设计引物，输出引物表格。

多序列比对展示

多序列比对是系统进化树构建的前缀，IMP 支持用户直接输入序列或提供基因名字自动提取序列进行多序列比对。

多序列比对展示处，用户可以调整氨基酸或碱基的上色模式、一行展示的序列长度以便获得合适长宽比的可视化图。

序列提取

通过功能搜索或序列搜索或差异基因分析完后获得的差异基因，可粘贴到这里的Gene list处，提取其Gene, CDS, Protein 和Promoter序列。

基因簇可视化

Gene map viewer 用于可视化基因组范围的基因分布，查看用户输入的基因是否在染色体区域成簇存在。设计有 2 种展示模式：

Overlay：
显示染色体局部区域的基因分布
Annotation：
显示基因在染色体水平的分布模式

Overlay可视化结果如下, 可以滚动鼠标缩放可视化区域，点击 Gene block 会跳转到 IGV 页面或基因详情页面：

Annotation模式下可视化结果如下, 如果多个基因位置在 0.2M bp内，则合并在一个三角形中展示。

更多基因共线性分析见 https://www.bic.ac.cn/SynColV。

在线实验设计和差异基因分析

本部分基于Reads-count矩阵采用limma-voom 进行差异基因的鉴定，然后对筛选出的差异基因进行GO/KEGG富集分析.

该功能涉及多个分析步骤，每个步骤页面结构差不多，下图是对于表单部分的解释。

第一步：实验设计确定要比较的物种和分组信息（不同组织部位差异或不同处理的差异）

按图所示，顺次选择每个参数即可（可选参数可略过）。

第二步：样品相关性评估和过滤异常样品

针对选中的样品，提取其表达矩阵，并采用DESeq2 类似的方式计算量化因子获得标准化后的数据矩阵，然后绘制样品相关性热图和 PCA 分析。

下图中的左右穿梭框显示了系统自动鉴定出的异常样品和通过检测的样品，用户也可以根据下面的可视化结果自行调整或筛选样品。

下面展示的是样品聚类热图和 PCA 分析的结果图，二者都是交互式图谱。

12个样品的表达相关性热图展示。行列注释中的DE_Group: 用户选择数据的生物分组信息。Single_group: 检查是不是有某个组只有 1 个生物学重。Single_batch: 检查某个批次的数据是不是只有 1 个样本。Outlier: 标识系统鉴定出的异常样品。Suggest_remove: 建议移除的样品。

可视化样品在主成分分析获得的第 1 和 2 组成分构成的空间中的分布. Toolkit 部分用户可以选择其它主成分进行展示，也可以调整点的颜色、大小、形状和绘制数据的分布模式。

第三部，设置比较组

拖动要比较的组到对应的框里面去从而进行两两比较。

拖动设置比较组.

第四步：设置差异基因过滤阈值

计算出的 FDR 值低于用户指定的值且表达变化倍数高于用户指定的值得基因定义为差异基因。

第五步：概览样品信息和设置的参数，这一步是提交前的信息确认

提交前确认样本信息和参数信息。

第六步：差异基因分析结果报告

差异基因分析结果报告包含样品信息、样品相关性热图、PCA 分析、差异基因热图、差异基因火山图、功能富集分析结果等。每一部分结果图都可以做进一步定制，也可以导出数据，放到一款高颜值免费在线SCI绘图工具ImageGP做更多可视化分析。

目录展示结果报告整体内容，各个部分可点击直接跳转。

第一部分是样品整体相关性信息展示。

第二部分是差异基因和富集分析结果展示。

整个结果也可以导出为 PDF 格式：当所有结果完成加载后，按Ctrl + p会启动Printer to PDF或打印到 PDF 功能，点击确认后即可输出 PDF。

IGV 基因组浏览器 {#igvch}

IGV 浏览器常用与可视化高通量数据在全基因组范围或局部基因区域的分布，可以用于展示基因表达丰度的高低，也可以用于发现新的可变剪接事件。

关键信息
所有的 track 文件都已标准化为了RPM (reads per million).
所有的 track 纵轴最大值和最小值得已设置为同一个标度，不同 track 的峰图的高低是可比的。
支持基因名字检索。

文章发表

IMP 于 2023 年 10 月发表于 Nucleic Acids Research, https://doi.org/10.1093/nar/gkad898。

引文：IMP: bridging the gap for medicinal plant genomics. Nucleic Acids Research, gkad898, https://doi.org/10.1093/nar/gkad898

往期精品(点击图片直达文字对应教程)

机器学习

http://mp.weixin.qq.com/s?__biz=MzUzMjA4Njc1MA==&mid=2247511916&idx=3&sn=93916bb408e7c6220ea99110b6b56f1d

宏基因组

宏基因组/微生物组是当今世界科研最热门的研究领域之一，为加强本领域的技术交流与传播，推动中国微生物组计划发展，中科院青年科研人员创立“宏基因组”公众号，目标为打造本领域纯干货技术及思想交流平台。

iMeta2024 浙江编委会暨长短读长测序技术 SEQ ALL 沙龙(2025 .11.19浙大)

iMeta实时CiteScore突破20 (2024/11/5)

iMeta | 浙大儿院倪艳/傅君芬组-MetOrigin 2.0微生物代谢物的发现和溯源

南加大 David Hutchins 实验室招收博士生及博士后研究员

MPB：上海交大肖湘等-海洋微生物的厌氧高压培养实验

MicrobiomeStatPlot | 孟德尔随机化分析教程Mendelian Randomization Analysis

iMetaOmics | 重庆大学王贵学组-肠道微生物细胞外囊泡在神经退行性疾病中的新作用及其治疗策略

视频回放 | 陈连民-我国人群特征性肠道微生物遗传图谱构建及其心血管代谢调控功能解析

iMetaOmics | 刘永鑫/陈同-用于食物微生物组成和时间序列研究的微生物组数据库FoodMicroDB

Cell | 病毒学未来50年面临的机遇和挑战

iMeta | 最全可视化韦恩图和集合图工具EVenn使用手册

iMeta | Sangerbox 2: 临床生信分析平台

iMeta 讲坛14 | 陈连民-我国人群特征性肠道微生物遗传图谱构建及其心血管代谢调控功能解析

iMeta2024 北京编委会暨长短读长测序技术沙龙(11/15北林）

Horticulture Research | 安徽农业大学植物病原细菌学团队在猕猴桃微生物组与溃疡病抗性方面取得新进展

Nature Reviews Microbiology：在单细胞水平研究微生物组功能的下一代生理学方法

Nature Biotechnology：反向基因组学对未培养细菌的定向分离与培养

npj biofilms microbiomes | 南京林业大学樊奔组发现细菌磷素平衡新型调控分子

MPB | 林科院袁志林组-枫香-真菌互作培养体系构建

MicrobiomeStatPlot | 蒙特尔检验相关性热图教程Mantel test correlation heatmap

iMeta | 被引超5200次，发文225篇，平均引用23.19，百引耗时7天(2024/11/10)

Nat Rev Microbiol | 深大周之超等综述微生物硫代谢的多样性及生态

MicrobiomeStatPlot | 棒棒糖图教程Lollipop Chart tutorial

MPB | 北林袁峥嵘组-16S扩增子分析中常用软件及数据库应用现状

视频回放 | 陈汉清-消化系统疾病危险因素及干预策略

喜报 | iMeta被SCIE、ESI等数据库正式收录!(2024/11/8)

MicrobiomeStatPlot | 线图教程Line plot tutorial

MPB | 中科院城环所杨军组-基于DNA宏条形码的水体微型真核生物群落测序建库方法

Nature综述 | 食源性细菌病原体:基于基因组的方法应对复杂和不断变化的世界中持续出现和新出现的威胁

喜讯 | 高起点新刊Engineering Microbiology 被 PubMed Central (PMC) 收录！！

MPB | 李文均团队-盐湖微生物的分离培养及保藏方法

iMeta | 中国海洋大学张伟鹏组-海洋生物被膜抗菌肽

MicrobiomeStatPlot | 热图结合柱状图展示组间差异Heatmap bar plot tutorial

iMeta 2024湖北区编委会暨2024 SEQ ALL系列线下沙龙首站顺利召开

ISME | 中科院版纳园庞志强/徐鹏提出植物根系分泌物-功能微生物组互作研究的新模型

MicrobiomeStatPlot | 分层关联分析Halla analysis

Microbiome|韦中/吴凤芝团队揭示挥发物介导的种间植物相互作用通过诱导根分泌物的变化促进有益细菌的根定植

MicrobiomeStatPlot | 广义估计方程分析Generalizedestimatingequation

iMeta 讲坛13 | 陈汉清-消化系统疾病危险因素及干预策略

ISME：利用基因组信息预测细菌的环境偏好

iMeta最终2023影响因子23.8 (附中国期刊最新影响因子)

MicrobiomeStatPlot | 频率分布直方图教程Frequency distribution histogram

MPB | 中农戴兆来组-猪肠道微生物样品的采集与核酸提取

【2025肠道大会】征稿正式启动！

iMeta成都-四川分舵线下编委会(11.4下午成都大学)

MPB：中农戴兆来组-猪肠道微生物的体外培养与功能研究

MicrobiomeStatPlot | 森林图教程Forest plot tutorial

视频回放 | 陈程杰-“接地气的”生物软件开发与社区维护-“用户视角”

MPB：陈同等-ImageGP在微生物组可视化中的应用

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

最全植物基因组数据平台 IMP中文教程（ 核基因组更新到 1000 个植物）