Fastq-dump 目录
NCBI的fastq-dump软件一直被大家归为目前网上文档做的最差的软件之一
我们一般使用fastq-dump的方式为:
$ fastq-dump /path/to/xxx.sra
但是这个默认使用方法得到结果往往很糟,比如说他默认会把双端测序结果保存到一个文件里,但是如果你加上--split-3之后,他会把原来双端拆分成两个文件,但是原来单端并不会保存成两个文件。 还有你用--gzip就能输出gz格式,能够节省空间的同时也不会给后续比对软件造成压力,比对软件都支持,就是时间要多一点。
这些东西在官方文档并没有特别说明,你只有通过不断的踩坑才能学到这些小知识。
-
reads拆分
默认情况下fastq-dump不对reads进行拆分,对于很早之前的单端测序没有出现问题。但是对于双端测序而言,就会把原本的两条reads合并成一个,后续分析必然会出错。
常见的参数有三类:
- --split-spot: 将双端测序分为两份,但是都放在同一个文件中
- --split-files: 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads直接丢弃
- --split-3 : 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads会单独放在一个文件夹里
-
read ID
默认双端测序数据拆分后得到两个文件中同一个reads的名字是一样的,但是加上-I | --readids
之后同一个reads的ID就会加上.1
和.2
进行区分。举个例子
是否有-I参数 | ID 1 | ID 2 |
---|---|---|
无 | @SRR5829230.1 1 length=36 | @SRR5829230.1 1 length=36 |
有 | @SRR5829230.1.1 1 length=36 | @SRR5829230.1.2 1 length=36 |
问题来了,明明已经可以通过ID后面的"1"和"2"来区分ID,加这个参数干嘛。加完之后还会让后续的BWA报错。所以,没事千万别加
-
原始格式
默认情况下输出的文件的ID都是SRR开头,但其实原始数据名字不是这样子,比如说
@ST-E00600:143:H3LJWALXX:1:1101:5746:1016 2:N:0:CCTCCTGA,@HWI-ST620:248:HB11HADXX:2:1101:1241:2082#0/1
这种。如果你想看到那种格式,而不是SRR,你需要怎么做呢?F|--origfmt
: 仅保留数据名字--defline-seq <fmt>
: 定义readsID的显示方式--defline-qual <fmt>
: 定义质量的显示方式
pfastq-dump:多核版fastq-dump 目录
平常一个SRA格式的转录组数据往往在3G左右,使用hisat2 mapping甚至不用转换成fastq格式,直接就支持SRA,而如果使用BWA做mapping,则必须转换成fastq格式,一旦SRA文件过大,转换过程也要花费很多时间,一个500G的小麦重测序数据则需要40个小时不止,时间就是金钱,在这浪费时间就是浪费金钱呢!
$ git clone https://github.com/inutano/pfastq-dump
$ cd pfastq-dump
$ chmod a+x bin/pfastq-dump
当然要想正常使用,前提是要保证NCBI的那个fastq-dump也能正常运行
使用:
$ pfastq-dump -t <number of threads> [options] <path to .sra file> [<path> ...]
单端
$ pfastq-dump--threads 8 --outdir /path/to/outdir /path/to/SRR000001.sra
双端
$ pfastq-dump--threads 10 --outdir ././SRR5873710.sra --split-3 --gzip
samtools和picard的排序问题 目录
samtools和picard都有对SAM/BAM文件进行排序的功能,一般都是基于坐标排序,先是对chromosome/contig进行排序,再在chromosome/contig内部基于start site从小到大排序,对start site排序很好理解,可是对chromosome/contig排序的时候是基于什么标准呢?
基于你提供的ref.fa
文件中的chromosome/contig的顺序。当你使用比对工具将fastq文件中的reads比对上参考基因组后会生成SAM文件,SAM文件包含头信息,其中有以@SQ
开头的头信息记录,reference中有多少条chromosome/contig就会有多少条这样的记录,而且它们的顺序与ref.fa
是一致的。
当使用samtools或picard对SAM/BAM文件进行排序时,这些工具就会读取头信息,按照头信息指定的顺序来排chromosome/contig。所以进行排序时需要提供包含头信息的SAM/BAM文件。
conda 目录
本人一直用的都是Miniconda,所以以下给出的解决方案可能不完全适用于Anaconda的用户
寻找软件所在的镜像 目录
用conda安装软件的标准语法格式为:
$ conda install -c <channel> <software>
其中-c
这个参数很重要,通过它来指定软件下载的镜像位置
对于我们这些生物信息学的从业人员来说,最常用的channel(这里可以理解成镜像)就是bioconda了,如果想要安装生物信息学,一般都会先到 bioconda官网 上找一找自己想要的软件在不在bioconda的官方镜像的列表中
这里以搜索BWA为例
如果软件正好在bioconda官方镜像里,万事大吉,直接用下面的命令安装就可以了
$ conda install -c bioconda bwa
如果你已经将bioconda这个channel加到自己的默认channel列表中,则不指定-c
参数也可以
但是如果你要的软件不在bioconda中怎么办?
这时你可以通过执行 anaconda search -t <software>
来列出保存目标软件的所有官方镜像
比如,如果你要安装CNVnator(这是一个安装过程神级坑的软件),它就不在bioconda中,执行
$ anaconda search -t cnvnator
得到的检索结果如下:
Using binstar api site https://api.anaconda.org
Run 'anaconda show <USER/PACKAGE>' to get more details:
Packages:
Name | Version | Package Types | Platforms
------------------------- | ------ | --------------- | ---------------
pwwang/cnvnator | 0.3.3 | conda | linux-64
: a tool for CNV discovery and genotyping from depth-of-coverage by mapped reads
Found 1 packages
通过上面的检索结果我们就知道目前只有唯一一个保存CNVnator的conda镜像,为pwwang,这是就可以通过指定刚才找到的镜像完成软件的安装了:
$ conda install -c pwwang cnvnator
conda中的Python与系统自带的Python打架 目录
在你安装完conda(不论是Anaconda还是Miniconda),它会自带安装对应的Python版本,而你的系统原先也安装了Python,这时两个来源两个版本的Python会发生冲突,使得你新安装的conda运行报错,比如简单地运行 conda list
,会出现以下一长串的报错信息:
Error processing line 1 of /usr/local/lib/python2.7/site-packages/matplotlib-2.1.2-py2.7-nspkg.pth:
Fatal Python error: initsite: Failed to import the site module
Traceback (most recent call last):
File "/disk2/yut/SOFTWARE/miniconda3/lib/python3.7/site.py", line 168, in addpackage
exec(line)
File "<string>", line 1, in <module>
File "/disk2/yut/SOFTWARE/miniconda3/lib/python3.7/importlib/util.py", line 14, in <module>
from contextlib import contextmanager
File "/disk2/yut/SOFTWARE/miniconda3/lib/python3.7/contextlib.py", line 5, in <module>
from collections import deque
File "/disk2/yut/SOFTWARE/miniconda3/lib/python3.7/collections/__init__.py", line 27, in <module>
from reprlib import recursive_repr as _recursive_repr
File "/usr/local/lib/python2.7/site-packages/reprlib/__init__.py", line 7, in <module>
raise ImportError('This package should not be accessible on Python 3. '
ImportError: This package should not be accessible on Python 3. Either you are trying to run from the python-future src folder or your installation of python-future is corrupted.
During handling of the above exception, another exception occurred:
Traceback (most recent call last):
File "/usr/local/lib/python2.7/site-packages/site.py", line 73, in <module>
__boot()
File "/usr/local/lib/python2.7/site-packages/site.py", line 47, in __boot
addsitedir(item)
File "/disk2/yut/SOFTWARE/miniconda3/lib/python3.7/site.py", line 207, in addsitedir
addpackage(sitedir, name, known_paths)
File "/disk2/yut/SOFTWARE/miniconda3/lib/python3.7/site.py", line 178, in addpackage
import traceback
File "/disk2/yut/SOFTWARE/miniconda3/lib/python3.7/traceback.py", line 3, in <module>
import collections
File "/disk2/yut/SOFTWARE/miniconda3/lib/python3.7/collections/__init__.py", line 27, in <module>
from reprlib import recursive_repr as _recursive_repr
File "/usr/local/lib/python2.7/site-packages/reprlib/__init__.py", line 7, in <module>
raise ImportError('This package should not be accessible on Python 3. '
ImportError: This package should not be accessible on Python 3. Either you are trying to run from the python-future src folder or your installation of python-future is corrupted.
仔细阅读上面的报错信息,你会发现这就是系统的Python和conda里的Python冲突了(我喜欢称这种现象为掐架、打架),这也是conda这个软件安装神器在给你带来方便的同时带来的副产品:它会污染你的环境变量!
遇到两个Python环境冲突的情况,我一般的解决情况就是,关闭系统的Python,即将系统的Python路径从我的环境变量中删除
$ export PYTHONPATH=''
再执行conda list
就不会再报错了
软件太大老是下载中断 目录
在用conda安装软件的过程中还会经常遇到的一个问题,就是:
我要下载一个软件,conda会告诉我这个软件底层依赖好几个其他的软件,需要将它们一起下载安装,这个时候这一大堆软件中可能有几个体量很大,上百MB,很容易下着下着网络连接就中断了,而conda有没有断点下载功能,一旦下载中断,conda就会终止安装进程退出运行
这个时候你可以尝试通过 wget
把那几个很大的软件的安装包下到本地,然后把它们移到conda的默认安装包下载路径下,这样再执行conda install
时,就会跳过这几个软件的下载过程
conda的默认安装包下载保存路径为:miniconda3/pkgs
参考资料: