宏基因组功能组成分析(Metagenomic Functional Profiling)用来确定特定生境或样本中存在微生物所行使的功能在样本/分组中相对占比的方法。通过颜色梯度或者聚类情况反映优势物种的变化趋势和相似程度。是一种基于宏基因组学的方法,它专注于分析环境样本中微生物群落的功能潜力和活性。这种方法不依赖于培养微生物,而是直接从环境样本中提取DNA,然后使用高通量测序技术来鉴a定和分析微生物群落中的基因和功能。功能组成分析的目标是揭示微生物群落的复杂功能网络,理解它们在生态系统中的作用,以及它们如何响应环境变化。
功能组成分析是用Diamond软件将测序得到的Unigene的蛋白序列与12个特色功能数据库进行比对注释,进而获得每个Unigene在不同数据库中的注释信息。使用定量方法(如相对丰度或绝对丰度)来估计样本中特定功能基因的表达水平。再结合Unigene的丰度信息统计各样本中各功能层级的丰度组成信息,对不同样本或条件下的功能组成数据进行组间差异分析,以识别差异显著的功能基因或代谢途径。
可通过功能组成分析研究微生物群落功能与环境因素或宿主健康状况之间的关联,以揭示微生物群落对环境变化的响应或对宿主健康的影响。
DIAMOND是一款强大的序列比对软件,专为应对高通量生物信息学数据而设计。它以其卓越的速度和准确性,在基因组学和宏基因组学研究中扮演着重要角色。DIAMOND的核心优势在于其能够快速处理大规模的序列数据,相较于传统的BLAST工具,DIAMOND在速度上实现了显著提升,同时保持了高灵敏度和特异性。
DIAMOND的工作原理基于种子和延伸方法,这种方法通过使用预处理的索引和高效的搜索算法,实现了对长reads的快速移框联配分析。用户可以利用`diamond makedb`命令轻松构建自定义的比对数据库,然后通过`diamond blastx`和`diamond blastp`等子命令进行DNA或蛋白质序列的比对。
除了速度,DIAMOND还以其较低的资源消耗和多种输出格式而受到青睐。它支持BLAST对比格式,使得结果可以方便地与下游分析工具集成。DIAMOND的这些特性,使其成为处理大规模生物信息学数据的理想选择,无论是在研究微生物群落的功能潜力,还是在探索基因表达模式的复杂性。
总之,DIAMOND以其快速、准确和用户友好的特性,成为了生物信息学领域中一个不可或缺的工具,特别是在需要处理大量序列数据时,DIAMOND的优势尤为明显。
GO数据库
GO(gene ontology)是基因本体联合会(Gene Onotology Consortium)所建立的国际标准化的基因功能分类体系,是一个有关基因功能的描述知识数据库。
KEGG数据库
KEGG(Kyoto Encyclopedia of Genes and Genomes,京都基因和基因组百科全书)是联系基因组分子水平的信息与高层次生物系统功能信息,包括细胞层次、生物体层次、生态环境层次的数据库,旨在揭示生命现象的遗传物质与化学蓝图。
eggNOG数据库
eggNOG((直系同源蛋白分组比对,evolutionary genealogy of genes: Non-supervised Orthologous Groups)是由欧洲分子生物学实验室(European Molecular Biology Laboratory,EMBL) 所构建和维护的一个基因组直系同源蛋白簇及其功能注释的数据库。
CARD数据库
CARD(The Comprehensive Antibiotic Resistance Database,抗生物耐药性综合数据库)中包括抗生素及其靶标的数据,以及抗生素抗性基因、相关蛋白和抗生素抗性文献,还包括从整个或部分基因组序列数据中鉴定抗生素抗性基因的分析工具。
mobileOG-db数据库
mobileOG-db是一个专门针对细菌移动遗传元件(Mobile Genetic Elements, MGEs)的手动策划的蛋白质家族数据库。这个数据库旨在提供一个基础,用于一系列以MGE为中心的分析。
MGEs数据库
移动遗传元件(Mobile Genetic Elements, MGEs)数据库是一系列专门用于识别和分析基因组中的移动遗传元件的资源。这些数据库对于理解基因转移、基因重组以及物种进化具有重要意义。
PlasticDB数据库
PlasticDB是一个具有塑料降解能力的微生物数据库,列出了633种微生物。
CAZy数据库
CAZy数据库(Carbohydrate-Active enZYmes Database)是一个专门针对能够合成或分解复杂碳水化合物和糖复合物的酶类的专业数据库资源。
VFDB数据库
VFDB (病原菌毒力因子数据库,Virulence factors Database)是一个用于专门研究致病细菌、衣原体和支原体致病因子的数据库。该数据库是由中国医学科学院建立并长期维护,目前收录了74个属,954个种,1381个毒力因子,共32827个毒力基因。
PHI数据库
PHI (Pathogen Host Interactions Database,病原与宿主互作数据库)收录了实验验证的真菌、卵菌和细菌病原的致病性、毒力和致病基因,感染的宿主包括动物、植物、真菌以及昆虫。该数据库含有致病菌感染宿主过程中预测的相关蛋白的详细描述。
MBPD数据库
MBPD数据库包含来源于1986个致病物种的72,685条序列信息,其中的病原菌来自于人畜共患类 (35493/72,685,48.9%)、动物类(33832/72,685,46.5%)以及植物类病原菌(3360/72,685,4.6%);1986个致病物种主要属于四个门,分别是Proteobacteria(758)、Firmicutes(558)、Actinobacteria(388)和Bacteroidetes(123)。
Probiotics数据库
Probiotics益生菌数据库,提供了448个已经上市的益生菌菌株的功能及综合信息;167个进行过临床试验/现场试验、382个有研究报道。不仅涵盖了人类益生菌,还包括了动物和植物相关的益生菌的数据。
进入【联川苍穹】宏基因组云分析界面,找到功能组成分析
可以选择数据库和层级、设定优势条目的数量,以及选择按照分组和样本进行绘图
样本选择页面
这里选择需要分析的数据表格
往下划可选择绘制不同图形(以聚类热图为例)
点击高级设置可调整样本/分组顺序
点击颜色设置,可调整配色参数
点击标题设置,可调整标题参数
点击字号设置和边距设置,可调整字号和边距参数
调整好参数后点击重新绘制便可得到所需图,点击【图片下载】就可以得到图片
1、热图
结果说明:横坐标为组间两样本距离分布(Between)以及各分组内两样本距离分布,纵坐标为两样本距离的秩,通过箱线图详细展示组内、组间距离的分布特征。R值表示组间与组内距离的差异程度,数值越大表示差异越大。P值表示组间与组内距离差异的显著性。
2、气泡图
结果说明:横坐标为分组,纵坐标为丰度前30的功能条目,点越大,该物种在组中的占比越大,颜色代表其所属的高层分类信息。
3、饼图
结果说明:按照不同的分组绘制分别绘制。扇形面积代表不同的功能条目所占的比例。
功能组成分析可以帮助我们深入了解微生物群落的结构和功能,以及它们如何响应环境变化。通过分析微生物群落的代谢功能,我们可以将复杂的微生物系统简化到数学建模所允许的水平,并能揭示出跨环境梯度的群落结构模式。
本文系联川生物公众号原创文章,未经授权禁止转载,侵权必究! 扫描下方二维码 点分享
点点赞
点在看