一边学习,一边总结,一边分享!
由于微信改版,一直有同学反映。存在长时间接收不到公众号的推文。那么请跟随以下步骤,将小杜的生信筆記设置为星标,不错过每一条推文教程。
欢迎关注《小杜的生信笔记》!!
如何加入社群
小杜的生信笔记
,仅有微信社群。
1. 微信群:付费社群。添加小杜好友,加友请知:加友须知!!,加入社群请查看小杜生笔记付费加友入群声明。
2. 小杜个人微信:若你有好的教程或想法,可添加小杜个人微信。值得注意的是,小杜个人微信并不支持免费咨询长时间咨询,但支持小问题2-3个免费咨询。
小杜微信:
知识星球:
lncRNA分析专栏教程
1. 引言
关于非编码RNA,大家并不陌生。长链非编码RNAs(long non-coding RNAs,lncRNAs)是长度超过200个核苷酸的RNA分子,不编码蛋白质。与mRNAs一样,真核生物的中的大多数lncRNAs由RNA聚合酶Ⅱ转录形成。1989年,Herve等人首次在人类细胞中发现第一个lncRNAs。随后,Brown等发现在雌性哺乳动物一条X染色体被沉默,随后发现lncRNAs (Xist)参与X染色体失活。lncRNAs的研究,在动物上的研究起步较早,植物中lncRNAs的研究相对于动物比较晚。lncRNAs根据与编码蛋白基因(mRNAs)的相对位置可以分为五大类(图1-1):基因间lncRNAs (intergenic lncRNAs,lincRNAs)、内含子lncRNAs (intronic lncRNAs)、正义lncRNAs (Sense lncRNAs)、反义lncRNAs (Antisense lncRNAs)和双向lncRNAs (bidirectional lncRNAs)。
对于我自己而言,开始学习生物信息学时,就是做lncRNA。目前,虽然,测序也是有专门的lncRNA测序
,但是,我们直接使用二代转录组鉴定筛选出候选的lncRNA位点,以及做后续的分析,岂不是给老板节省了很多资金呢!
因此,我们创建《长链非编码RNA (lncRNA)分析》专栏,为基于普通转录组鉴定lncRNAs位点(上游分析)、差异分析、功能富集和一系列的教程。
后续,我们也会录制相对应的教学视频。
2. 安装软件
2.1 创建新环境
conda create -n py27_lncRNA python=2.7 -y
2.2 安装mapped所需软件
mamba install -y hisat2 stringtie CPAT diamond samtools fastqc fastp bedtools
warnings.warn("zstandard could not be imported. Running without .conda support.")
/home/Data/kanghua/mambaforge/lib/python3.10/site-packages/conda_package_handling/api.py:29: UserWarning: Install zstandard Python bindings for .conda support
_warnings.warn("Install zstandard Python bindings for .conda support")
__ __ __ __
/ \ / \ / \ / \
/ \/ \/ \/ \
███████████████/ /██/ /██/ /██/ /████████████████████████
/ / \ / \ / \ / \ \____
/ / \_/ \_/ \_/ \ o \__,
/ _/ \_____/ `
|/
███╗ ███╗ █████╗ ███╗ ███╗██████╗ █████╗
████╗ ████║██╔══██╗████╗ ████║██╔══██╗██╔══██╗
██╔████╔██║███████║██╔████╔██║██████╔╝███████║
██║╚██╔╝██║██╔══██║██║╚██╔╝██║██╔══██╗██╔══██║
██║ ╚═╝ ██║██║ ██║██║ ╚═╝ ██║██████╔╝██║ ██║
╚═╝ ╚═╝╚═╝ ╚═╝╚═╝ ╚═╝╚═════╝ ╚═╝ ╚═╝
mamba (1.4.1) supported by @QuantStack
GitHub: https://github.com/mamba-org/mamba
Twitter: https://twitter.com/QuantStack
█████████████████████████████████████████████████████████████
/home/Data/kanghua/mambaforge/lib/python3.10/site-packages/conda_package_streaming/package_streaming.py:19: UserWarning: zstandard could not be imported. Running without .conda support.
warnings.warn("zstandard could not be imported. Running without .conda support.")
/home/Data/kanghua/mambaforge/lib/python3.10/site-packages/conda_package_handling/api.py:29: UserWarning: Install zstandard Python bindings for .conda support
_warnings.warn("Install zstandard Python bindings for .conda support")
Looking for: ['hisat2', 'stringtie', 'cpat', 'diamond', 'samtools', 'fastqc', 'fastp', 'bedtools']
warning libmamba Could not parse state file: Could not load cache state: [json.exception.type_error.302] type must be string, but is null
warning libmamba Could not parse state file: Could not load cache state: [json.exception.type_error.302] type must be string, but is null
warning libmamba Could not parse state file: Could not load cache state: [json.exception.type_error.302] type must be string, but is null
warning libmamba Could not parse state file: Could not load cache state: [json.exception.type_error.302] type must be string, but is null
conda-forge/noarch 19.2MB @ 3.6MB/s 6.2s
bioconda/linux-64 5.6MB @ 668.8kB/s 8.6s
bioconda/noarch 5.2MB @ 511.9kB/s 10.5s
conda-forge/linux-64 44.9MB @ 485.3kB/s 1m:35.7s
Pinned packages:
- python 2.7.*
warning libmamba Extracted package cache '/home/Data/kanghua/mambaforge/pkgs/ncbi-vdb-3.1.1-h4ac6f70_1' has invalid url
warning libmamba Extracted package cache '/home/Data/kanghua/mambaforge/pkgs/entrez-direct-22.4-he881be0_0' has invalid url
Transaction
Prefix: /home/Data/kanghua/mambaforge/envs/py27_lncRNA
Updating specs:
- hisat2
- stringtie
- cpat
- diamond
- samtools
- fastqc
- fastp
- bedtools
- ca-certificates
- certifi
- openssl
...................
Preparing transaction: done
Verifying transaction: done
Executing transaction: done
2.3 安装LncFinder-plant软件
这是基于R语言环境中安装。LncFinder
网址:https://cran.r-project.org/web/packages/LncFinder/index.html
注意:在安装LncFinder
包时,我这里遇到报错,主要是由于ade4
包的问题,一直存在报错。我这里使用install.package("ade4")
安装时,一直安装不了,不知道你是否会存在这样的问题。
解决方法:直接下载源码ade4
包,进行手动安装。
下载网址:
https://cran.r-project.org/web/packages/ade4/index.html
在进行安装即可:
方法1:
install.packages("~/R/ade4_1.7-22.tar.gz", repos = NULL, type = "source")
方法2:
step one:step two:step three:
ade4
包安装成功后,直接安装后面的包。
install.packages("LncFinder","seqinr")
Warning in install.packages("LncFinder", "seqinr") :
'lib = "seqinr"' is not writable
Would you like to use a personal library instead? (yes/No/cancel) yes
Would you like to create a personal library
‘/home/Data/kanghua/R/x86_64-pc-linux-gnu-library/4.4’
to install packages into? (yes/No/cancel) yes
trying URL 'https://cloud.r-project.org/src/contrib/LncFinder_1.1.5.tar.gz'
Content type 'application/x-gzip' length 2300060 bytes (2.2 MB)
==================================================
downloaded 2.2 MB
* installing *source* package ‘LncFinder’ ...
** package ‘LncFinder’ successfully unpacked and MD5 sums checked
** using staged installation
** R
** data
*** moving datasets to lazyload DB
** inst
** byte-compile and prepare package for lazy loading
** help
*** installing help indices
** building package indices
** testing if installed package can be loaded from temporary location
** testing if installed package can be loaded from final location
** testing if installed package keeps a record of temporary installation path
* DONE (LncFinder)
The downloaded source packages are in
‘/tmp/RtmpkFYola/downloaded_packages’
2.4 安装FEELnc
FlExible Extraction of Long non-coding RNAs
2.4.1 软件所在网址
https://github.com/tderrien/FEELnc
2.4.2 git安装
git clone https://github.com/tderrien/FEELnc.git
export FEELNCPATH=/path/FEELnc/bin/
export PERL5LIB=$PERL5LIB:/path/FEELnc/lib/
export PATH=$PATH:/path/FEELnc/scripts/
2.4.3 源码安装
https://github.com/tderrien/FEELnc/releases
下载:
https://github.com/tderrien/FEELnc/archive/refs/tags/v.0.2.1.tar.gz
tar -zxvf FEELnc-v.0.2.1.tar.gz
2.4.5 Bioperl模块
LEElnc是基于perl开发的,因此,需要安装对perl的模块。(这方面是的比较难的,遇到perl模块,相对其他包,是比较难安的)
缺少对应的模块:
需要root权限
sudo cpan Parallel::ForkManager
不需要root权限
source ~/.bashrc
>cpan
cpan>install Module::Build
cpan>o conf prefer_installer MB
cpan>o conf commit
cpan>q
参考:https://www.jianshu.com/p/f348464c52da
2.4.6 缺什么模块安装什么模块
Run this command to install Bioperl through CPAN:
sudo cpan Bio::Perl
or
conda install -c bioconda bioperl
# or
mamba install -c bioconda bioperl
2.5 安装CPC2
2.5.1 软件网址
https://cpc2.gao-lab.org/download.php
CPC2也是的鉴定lncRNA比较重要的和常用到的一个软件。
在这里,我们安装python3版本的CPC2软件,我们就依次进行根据步骤运行即可。
网址:https://github.com/gao-lab/CPC2_standalone
wget https://github.com/gao-lab/CPC2_standalone/releases/tag/v1.0.1
## 解压
gzip -dc CPC2-beta.tar.gz | tar xf -
##
tom@linux$ cd CPC2-beta
tom@linux$ export CPC_HOME="$PWD"
tom@linux$ cd libs/libsvm
tom@linux$ gzip -dc libsvm-3.18.tar.gz | tar xf -
tom@linux$ cd libsvm-3.18
tom@linux$ make clean && make
其中Biopython
是必须的
https://biopython.org/wiki/Download
2.5.2 安装biopython
pip install biopython
--
若是出现网络问题,无法安装biopython
,直接下载安装包进行安装。
wget http://biopython.org/DIST/biopython-1.84.tar.gz
# 解压
tar -zxvf biopython-1.84.tar.gz && cd biopython-1.84
# 加载
pip install .
-- 尝试后,依旧存在某些模块未安装。
安装模块:
pip install six
2.5.3 CPC2安装成功
$ ./CPC2.py --help
Usage: CPC2.py [options] -i input.fasta -o output_file
Contact: Kang Yujian <kangyj@mail.cbi.pku.edu.cn>
Options:
--version show program's version number and exit
-h, --help show this help message and exit
Common Options:
-i FILE input sequence in fasta format [Required]
-o FILE output file [Default: cpc2output.txt]
-r also check the reverse strand [Default: FALSE]
--ORF output the start position of longest ORF [Default: FALSE]
2.5.4 CPC网页版本
https://cpc2.gao-lab.org/index.php
往期部分文章
1. 最全WGCNA教程(替换数据即可出全部结果与图形)
推荐大家购买最新的教程,若是已经购买以前WGNCA教程的同学,可以在对应教程留言,即可获得最新的教程。(注:此教程也仅基于自己理解,不仅局限于此,难免有不恰当地方,请结合自己需求,进行改动。)
2. 精美图形绘制教程
3. 转录组分析教程
4. 转录组下游分析
小杜的生信筆記 ,主要发表或收录生物信息学教程,以及基于R分析和可视化(包括数据分析,图形绘制等);分享感兴趣的文献和学习资料!!