准备参考基因组
下载基因组和基因组注释文件
NCBI (National Center for Biotechnology Information)
下载地址: NCBI Genome 提供多个物种的参考基因组,可以通过选择物种和具体的基因组版本进行下载。
Ensembl
下载地址: Ensembl Genomes 提供脊椎动物、无脊椎动物、植物、细菌和其他分类的参考基因组。
UCSC Genome Browser
下载地址: UCSC Downloads 提供多个物种的基因组浏览和下载服务,包括人类、小鼠、大鼠等主要模式生物。
Phytozome
下载地址: Phytozome 提供多种植物的参考基因组数据,是研究植物基因组和比较基因组学的一个重要资源。
准备 blacklist region
基因组 "blacklist region"(基因组黑名单区域)是指在基因组中那些由于各种技术或生物学原因导致数据质量较差、噪音较高或不可重复区域。通常在高通量测序实验(如ChIP-seq、RNA-seq、ATAC-seq)中,这些区域会干扰信号检测,影响数据分析的准确性。因此,在数据处理和分析时,这些区域通常会被排除或标记为"blacklist"。
常见的黑名单区域原因
技术噪音:
高GC含量区域:这些区域在测序时容易产生偏差,导致覆盖度不均匀。 重复序列:高重复性序列可能导致读长无法唯一比对,从而引入假阳性信号。
生物学原因:
染色质开放区域:这些区域在多种细胞类型中始终是开放的,容易被误认为是特定条件下的活性区域。 高度转录的基因:如rRNA基因,这些区域在转录组数据中信号特别强,可能干扰实际目标基因的检测。
使用黑名单的优势
提高数据质量:通过排除高噪音区域,可以减少假阳性,提高分析结果的可靠性。 标准化分析:使用统一的黑名单区域,有助于不同实验和研究之间的数据比较和整合。
基因组黑名单区域是为了提高基因组学数据分析质量和可靠性而定义的一组高噪音区域。在数据处理和分析时使用这些黑名单区域,有助于排除技术和生物学噪音,获得更准确的结果。
人等物种:https://github.com/Boyle-Lab/Blacklist
拟南芥:
https://github.com/sklasfeld/GreenscreenProject/tree/main/data
准备测序数据(raw data)
生信分析服务器共享产品
试用版:48线程、512GB内存、200GB硬盘,397元/半年 主推版:88线程、512GB内存、400GB硬盘,597元/年 高端版:256线程、2TB内存、800GB硬盘,797元/年 硬盘扩容:每增加100GB硬盘,额外收费100元/年
欢迎关注
往期回顾
点点“分享”,给我充点儿电吧~