scATAC联合scRNA之signac分析(一):cellranger-atac上游scATAC数据处理/公共数据库挖掘演示

学术   2024-12-17 09:35   重庆  

偷偷问一下,关注了吗

内容获取


1、购买打包合集(《KS科研分享与服务》付费内容打包集合),价格感人,可以加入微信VIP群(答疑交流群,甚至有小伙伴觉得群比代码更好),可以获取建号以来所有内容,群成员专享视频教程,提前更新,其他更多福利!


2、《KS科研分享与服务》公众号有QQ群,进入门槛是20元(完全是为了防止白嫖党,请理解),请考虑清楚。群里有免费推文的注释代码和示例数据(终身拥有),没有付费内容,群成员福利是购买单个付费内容半价!


需要者详情请联系作者(非需要者勿扰,处理太费时间):


这是一个新的系列,关于signac分析scATAC数据,我们从上游开始。我们之前在介绍ArchR的时候,介绍过cellranger-atac分析scATAC上游数据(ArchR包单细胞ATAC分析(1): 上游分析)。这里我们从公共数据库挖掘的角度,从上游分析开始,完成这个系列,关于ATAC的基本知识,请参考10X官网介绍或者其他!

1、ATAC简介:

ATAC染色质可及性。染色质可及性是一个生物学概念,学过生物学我们都知道,细胞里面的遗传物质是以染色体的紧密形式呈现的,染色体有DNA、组蛋白等等组成,是一个整体的结构,并不是我们想象中的那样,一条长长的DNA双螺旋。那么在基因转录的时候,或者说需要那些基因转录的时候,这时候这部分区域的染色质就得打开,调控因子结合打开的DNA,从而进行转录过程。打开的部分称为开放的染色质,开放的染色质允许转录调控因子结合的这个特征称之为染色质可及性。

2、ATAC-seq简单原理介绍

既然存在染色质可及性,即转录过程中染色体会开放区域,那么就可以利用这个特性。在ATAC-seq中,收集好组织或者细胞的细胞核之后,使用Tn5 DNA转座酶特异性的结合到染色体开放区域,而那些紧密连接的区域不会受到影响,这样开放区域的染色质DNA会被转座酶随机插入并打断,而转座酶插入时携带测序接头,最后将打断后的DNA收集,建库测序,即ATAC-seq。

3、公共数据库数据下载

实际上,我很不建议自己跑上游,因为很耗费时间,对设备也有要求,请用服务器(共享的价格、独享的体验---有root权限、可解决问题 (注册领取200优惠券)!)。如果你的数据是公司测的,那么不用但系上游处理的问题,直接用他处理好的进行下游分析即可。但是很多时候,存在我们需要挖掘的情况,如果别人提供了完整的数据可供下游分析还好,倒霉的就是他们不提供,而你又很需要,那就只能自己跑上游了。我们这里演示也是为了让大家了解一下基本流程。

我选取的数据是这篇文章的:https://doi.org/10.1038/s41588-023-01445-4,这篇《nature genetics》文章很友好的公开了自己的数据,我选取了每个组一个样本,也就是总共三个样本用于演示,处理太多对我来说没什么意义。因为我的服务器空间并不大,而scATAC上游有很耗费磁盘空间,所以三个样本分开跑的。和其他挖掘SRR数据库一样,首先利用prefetch下载sra文件,然后利用fastq-dump将sra文件分为FASTQ文件cat将分割的文件合并,并按照cellranger要求进行命名:请注意,即使我提供了数据,也不要当作生物学样本去使用,仅仅是演示数据,意义不大!

 1525  cat SRR_HC.txt  1526  cat SRR_HC.txt |  while  read id; do ( prefetch $id & ); done 1528  cd SRR21377796/ 1529  fastq-dump -O ./ --gzip --split-files SRR21377796.sra  1530  cd .. 1531  cd SRR21377797/ 1532  fastq-dump -O ./ --gzip --split-files SRR21377797.sra  1534  cd new_ATAC/SRR21377812/ 1536  fastq-dump -O ./ --gzip --split-files SRR21377812.sra  1537  cd .. 1538  cd SRR21377813 1539  ls 1540  fastq-dump -O ./ --gzip --split-files SRR21377813.sra  1541  cd .. 1543  cat ./SRR21377796/SRR21377796_1.fastq.gz ./SRR21377797/SRR21377797_1.fastq.gz ./SRR21377812/SRR21377812_1.fastq.gz ./SRR21377813/SRR21377813_1.fastq.gz >  AA_S1_L001_I1_001.fastq.gz 1544  cat ./SRR21377796/SRR21377796_2.fastq.gz ./SRR21377797/SRR21377797_2.fastq.gz ./SRR21377812/SRR21377812_2.fastq.gz ./SRR21377813/SRR21377813_2.fastq.gz >  AA_S1_L001_R1_001.fastq.gz 1548  cat ./SRR21377796/SRR21377796_3.fastq.gz ./SRR21377797/SRR21377797_3.fastq.gz ./SRR21377812/SRR21377812_3.fastq.gz ./SRR21377813/SRR21377813_3.fastq.gz >  AA_S1_L001_R2_001.fastq.gz 1549  cat ./SRR21377796/SRR21377796_4.fastq.gz ./SRR21377797/SRR21377797_4.fastq.gz ./SRR21377812/SRR21377812_4.fastq.gz ./SRR21377813/SRR21377813_4.fastq.gz >  AA_S1_L001_R3_001.fastq.gz
 1575  cat SRR_HC.txt | while  read id; do ( prefetch $id & ); done  1576  cd new_ATAC/ 1578  cd SRR213777880 1579  cd SRR21377780/ 1580  cd new_ATAC/SRR21377780 1581  ls 1582  nohup fastq-dump -O ./ --gzip --split-files SRR21377780.sra & 1583  cd .. 1584  cd SRR21377781 1585  ls 1586  nohup fastq-dump -O ./ --gzip --split-files SRR21377781.sra & 1587  cd .. 1588  cd SRR21377782 1589  ls 1590  nohup fastq-dump -O ./ --gzip --split-files SRR21377782.sra & 1591  cd .. 1592  cd SRR21377783/ 1593  nohup fastq-dump -O ./ --gzip --split-files SRR21377783.sra & 1594  cd .. 1595  cat ./SRR21377783/SRR21377783_1.fastq.gz ./SRR21377782/SRR21377782_1.fastq.gz ./SRR21377781/SRR21377781_1.fastq.gz ./SRR21377780/SRR21377780_1.fastq.gz >  HC_S1_L001_I1_001.fastq.gz 1596  cat ./SRR21377783/SRR21377783_2.fastq.gz ./SRR21377782/SRR21377782_2.fastq.gz ./SRR21377781/SRR21377781_2.fastq.gz ./SRR21377780/SRR21377780_2.fastq.gz >  HC_S1_L001_R1_001.fastq.gz 1597  cat ./SRR21377783/SRR21377783_3.fastq.gz ./SRR21377782/SRR21377782_3.fastq.gz ./SRR21377781/SRR21377781_3.fastq.gz ./SRR21377780/SRR21377780_3.fastq.gz >  HC_S1_L001_R2_001.fastq.gz 1598  cat ./SRR21377783/SRR21377783_4.fastq.gz ./SRR21377782/SRR21377782_4.fastq.gz ./SRR21377781/SRR21377781_4.fastq.gz ./SRR21377780/SRR21377780_4.fastq.gz >  HC_S1_L001_R3_001.fastq.gz
 1602  cd new_ATAC/ 1603  tail -f nohup.out  1604  cat SRR_SD.txt |  while  read id; do ( prefetch $id & ); done 1605  conda activate cellranger 1606  cd SRR21377814 1607  nohup fastq-dump -O ./ --gzip --split-files SRR21377814.sra  & 1608  cd .. 1609  cd SRR21377815/ 1610  nohup fastq-dump -O ./ --gzip --split-files SRR21377815.sra  & 1611  cd .. 1612  cd SRR21377816/ 1613  nohup fastq-dump -O ./ --gzip --split-files SRR21377816.sra  & 1614  cd .. 1615  cd SRR21377817/ 1616  nohup fastq-dump -O ./ --gzip --split-files SRR21377817.sra & 1617  cd .. 1618  ls 1619  cat ./SRR21377814/SRR21377814_1.fastq.gz ./SRR21377815/SRR21377815_1.fastq.gz ./SRR21377816/SRR21377816_1.fastq.gz ./SRR21377817/SRR21377817_1.fastq.gz >  SD_S1_L001_I1_001.fastq.gz 1620  cat ./SRR21377814/SRR21377814_2.fastq.gz ./SRR21377815/SRR21377815_2.fastq.gz ./SRR21377816/SRR21377816_2.fastq.gz ./SRR21377817/SRR21377817_2.fastq.gz >  SD_S1_L001_R1_001.fastq.gz 1621  cat ./SRR21377814/SRR21377814_3.fastq.gz ./SRR21377815/SRR21377815_3.fastq.gz ./SRR21377816/SRR21377816_3.fastq.gz ./SRR21377817/SRR21377817_3.fastq.gz >  SD_S1_L001_R2_001.fastq.gz 1622  cat ./SRR21377814/SRR21377814_4.fastq.gz ./SRR21377815/SRR21377815_4.fastq.gz ./SRR21377816/SRR21377816_4.fastq.gz ./SRR21377817/SRR21377817_4.fastq.gz >  SD_S1_L001_R3_001.fastq.gz

4、安装cellranger-atac,下载参考基因组

参考10X官网,按照需求下载相应的版本;参考基因组也是提供了人和小鼠的,一定要对应哦:
https://support.10xgenomics.com/single-cell-atac/software/downloads/latest
wget -O cellranger-atac-2.1.0.tar.gz \"https://cf.10xgenomics.com/releases/cell-atac/cellranger-atac-2.1.0.tar.gz?Expires=1676294517&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly9jZi4xMHhnZW5vbWljcy5jb20vcmVsZWFzZXMvY2VsbC1hdGFjL2NlbGxyYW5nZXItYXRhYy0yLjEuMC50YXIuZ3oiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE2NzYyOTQ1MTd9fX1dfQ__&Signature=CX4JhovsMLEXYDYPY2GEVv0SaLg3X-KOUBQ-S52aciWgpd996iHomsnN7gulQaws59GywBLaCjwf7mrxGit8Fs6kKJ1IkTbdxVmDKAg9DMFfJ5BwRIck9NX8eeLyBEpDAS6t~WGbfkCViforbugd1tNbBgJRcRN8pIrCnai9GmqZQzzKTbkllArlj3AxKDkPgNin9g6H5cg8D8PcZfFfeu7jdm5rKFdBNtVn1Et45QDQmNoJxuXRngyC5cBKbICUlOmhqE6tOMjuJEBqijVqaLnTSrRRzvyu-rEEuNIdGuIYPwWZQ5RoDh4g0X-ZO60h4RZu3ZoRlEDlsQOlSrJ68w__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"  #安装软件#首先解压 tar -xzvf cellranger-atac-2.1.0.tar.gz #添加到环境变量  echo  'export PATH=/home/biosoft/cellranger-atac-2.1.0:$PATH' >>~/.bashrc source ~/.bashrc #查看下帮助文档,是不是安装好了 #ATAC参考基因组下载 wget https://cf.10xgenomics.com/supp/cell-atac/refdata-cellranger-arc-GRCh38-2020-A-2.0.0.tar.gz tar -zxvf refdata-cellranger-arc-GRCh38-2020-A-2.0.0.tar.gz

5、run cellranger-atac count

我是一个一个样本跑的。建议跑的时候nohup挂后台,然后就可以干别的事情了,我这里的样本12h也跑完了,因为时间比较久,万一服务器被你误操作终止了那不得心疼死。不放心中间可检查日志文件,看看是否有报错。
nohup cellranger-atac count --id=SRR_AA --reference=/home/aaa/biosoft/refdata-cellranger-arc-GRCh38-2020-A-2.0.0 --fastqs=./  &nohup cellranger-atac count --id=SRR_HC --reference=/home/aaa/biosoft/refdata-cellranger-arc-GRCh38-2020-A-2.0.0 --fastqs=./  &nohup cellranger-atac count --id=SRR_SD --reference=/home/aaa/biosoft/refdata-cellranger-arc-GRCh38-2020-A-2.0.0 --fastqs=./  &

6、output

最终得到的文件在outs文件夹,有这些,就可以进行下游分析了:web_summary文件可以查看样本数据质量和基本情况!


觉得我们分享有些用的,点个赞再走呗!
关注我们获取精彩内容:


关注不迷路:扫描下面二维码关注公众号!
B站视频号链接https://space.bilibili.com/471040659?spm_id_from=333.1007.0.0




关注 KS科研分享与服务,

认清正版优质内容和服务!

优质内容持续输出,物超所值!

合作联系:ks_account@163.com

新的板块-重要通知-双向选择

KS科研分享与服务
科研学习交流于分享,生信学习笔记,科研经历和生活!
 最新文章