组装"预实验" | 基因组调研图

文摘 2024-07-18 08:01 北京

“ 基因组是生命的基础蓝图，了解一个物种的基因组，是迈出组装的第一步。”

基因组调研图有助于了解即将组装的这个物种的基因组复杂程度，为后续的正式的基因组组装去提供一些依据。基因组的复杂程度可以从基因组大小，倍性，杂合度，重复率等方面去进行评价。

—

用什么来做基因组调研图？

基因组的调研图一般都会使用kmer分析来实现。kmer分析通常都是基于30到80×的二代测序数据去完成。

如何预估自己所需测序数据量？

1. 流式细胞仪：

通过测量细胞核的DNA含量来估算基因组大小，1pg=978M；

2. 网站查询：

植物基因组大小查询：https://cvalues.science.kew.org/

动物基因组大小查询：http://www.genomesize.com/

—

什么是k-mer？

k-mer是指包含在一段序列中的长度为k的子串。

现有一段序列，长度是15个碱基，把k的长度设置成5，这意味着需要从这段序列上，每隔一个碱基取一个长度为5个碱基的序列片段。那么序列长度为15的序列可以取11个5mer。如图：

注意：

K需为奇数，防止正反链混淆；

针对长度为K的K-mer，对于 A,T,C,G四种碱基类型，一共能产生的K-mer种类数为4^k个。

—

如何利用k-mer评估基因组大小？

1.获取k-mer频数分布表（假设样本名为A）

ls /Data/A* | awk '{ print "gzip -dc " $0}' > A_generate.file
jellyfish count -t 20 -C -m 21 -s 3G -g A_generate.file -G 2 -o A.sif
# jellyfish count：k-mer计数# -t 指定线程数# -C 对DNA正负链都进行统计，表示考虑DNA正义与反义链。如果是双端测序reads，需要这个参数。# -m k-mer长度设置为21bp.# -s 3G 存储用的hash表大小为3G，这个参数识别单位M(Mbp)和G(Gbp)。如果设置不够大，会生成多个hash文件。最好设置的值大于总的独特的(distinct)k-mer数。如果基因组大小为G，每个reads有一个错误，总共有n条reads，则该值可以设置为[(G + n)/0.8]。# -g --generator=path 记录产生fast[aq]命令的文件# -G 同时运行的数目# -o 指定输出文件的名字，hash格式储存的k-mer频数文件

2.统计k-mer频率

jellyfish histo -v -t 20 -h 10000000 -o A.histo A.sif
# 结果最后是两列，第一列是x，表示的是出现的次数；第二列是y，表示出现x次数的kmer数目。# -v 显示详细信息# -t 线程数# -h x的最大值，默认是10000# -o 输出文件的名字。

3. 统计k-mer

jellyfish stats A.sif -o A.stats

结果有四行：

Unique: 只出现过一次的k-mer数量Distinct: 特异的k-mer数目Total: k-mer总数Max_count: 频数最高的k-mer数量

4. 基因组特征评估

genomescope.R -i A.histo -o genomescope_A -p 2 -k 21 -m 10000000# -i 输入文件# -o 输出文件夹# -p 倍性# -k k-mer长度# -m 最大k-mer覆盖度，覆盖度大于该数字的k-mer将被忽略

—

结果解读

在输出文件夹中会存在四个图片，三个txt文件。其中最重要的结果图片是 transformed_linear_plot.png，图中信号含义标注如下图，其中kcov指的是杂合峰的覆盖度：

最重要的结果文件是 summary.txt，其中信息如下图：

参考资料：

https://www.jianshu.com/p/e02dc99ceb97

https://www.jianshu.com/p/a1f636e957bf

https://github.com/schatzlab/genomescope

扫描下方二维码入门生物信息：

生信课堂

生信笔记

最新文章

如何使用dd拷贝系统盘

组装"预实验" | 物种倍性分析

IF=4.3 | 秋茄树SOS1基因家族分析

FUSION做TWAS分析

linux三剑客之grep-文件中的信息搜索

IF=13.8 | 青藏高原人群肠道微生物生物标志物的荟萃分析及微生物群衍生的丁酸盐在高海拔适应中的功能

WGCNA分析 | 结果解读

R语言绘制转录组多组差异基因展示

IF=4.6 | 蛋白质组学分析揭示白藜芦醇的抗菌机制

TWAS分析的原理和工具

IF=13.8 | 甘油/二醇脱水酶是后肠发酵食肉动物肠道微生物群的关键功能

核苷酸多样性π的计算

R语言绘制差异表达火山图

eQTL分析之协变量计算

几种基因型数据的转换

IF=4.9 | 多倍体割手密IAA基因家族分析鉴定

R语言基础入门—数据结构（2）

DockerHub镜像无法下载的解决方案

单细胞转录组-RNA速率（RNA velocity）分析原理与结果解读

如何预测CpG岛

空间转录组数据读取

用R包——MatrixEQTL做eQTL分析

IF=5.7 | 转录组数据揭示类风湿关节炎的临床诊断模型

R语言基础入门—数据结构（1）

空间转录组数据预处理

R语言基础入门—R语言概述与安装！

单细胞转录组课程更新

单细胞转录组数据挖掘流程记录-BLCA膀胱癌(GSE192575)

单细胞转录组数据挖掘流程记录-BRCA乳腺癌(E-MTAB-8107)

单细胞转录组数据挖掘流程记录-BRCA乳腺癌(GSE161529)

单细胞转录组数据挖掘流程记录-CRC直肠癌(GSE178341)

给进化树标定化石时间

组装"预实验" | 基因组调研图

序列的提取和截取

蛋白质组学质谱数据搜库分析 | MaxQuant软件的使用

单细胞转录组-cellchat细胞通讯结果解读

单细胞转录组数据挖掘流程记录-BLCA膀胱癌(GSE192575)

单细胞转录组数据挖掘流程记录-BRCA乳腺癌(E-MTAB-8107)

单细胞转录组数据挖掘流程记录-BRCA乳腺癌(GSE161529)

单细胞转录组数据挖掘流程记录-CRC直肠癌(GSE178341)

单细胞转录组-monocle3分析结果解读

转录组时序数据分析课程上架

《肠型分析》课程上架

遗传图构建与QTL定位课程上新

graphics包的barplot()函数绘制柱状堆叠图

QTL定位介绍

蛋白互作网络工具Cytoscape的安装与使用

《T2T基因组组装和注释》课程上新

招聘 | 山东农业大学杨龙课题组招聘博士后

创建自己的docker镜像

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉