Fastq-dump
pfastq-dump：多核版fastq-dump
samtools和picard的排序问题
conda

生信软件踩坑记

Fastq-dump ^目录

NCBI的fastq-dump软件一直被大家归为目前网上文档做的最差的软件之一

我们一般使用fastq-dump的方式为:

$ fastq-dump /path/to/xxx.sra

但是这个默认使用方法得到结果往往很糟，比如说他默认会把双端测序结果保存到一个文件里，但是如果你加上--split-3之后，他会把原来双端拆分成两个文件，但是原来单端并不会保存成两个文件。还有你用--gzip就能输出gz格式，能够节省空间的同时也不会给后续比对软件造成压力，比对软件都支持，就是时间要多一点。

这些东西在官方文档并没有特别说明，你只有通过不断的踩坑才能学到这些小知识。

reads拆分

默认情况下fastq-dump不对reads进行拆分，对于很早之前的单端测序没有出现问题。但是对于双端测序而言，就会把原本的两条reads合并成一个，后续分析必然会出错。

常见的参数有三类:
- --split-spot: 将双端测序分为两份，但是都放在同一个文件中
- --split-files: 将双端测序分为两份，放在不同的文件，但是对于一方有而一方没有的reads直接丢弃
- --split-3 : 将双端测序分为两份，放在不同的文件，但是对于一方有而一方没有的reads会单独放在一个文件夹里
read ID

默认双端测序数据拆分后得到两个文件中同一个reads的名字是一样的，但是加上-I | --readids之后同一个reads的ID就会加上.1和.2进行区分。举个例子

是否有-I参数	ID 1	ID 2
无	@SRR5829230.1 1 length=36	@SRR5829230.1 1 length=36
有	@SRR5829230.1.1 1 length=36	@SRR5829230.1.2 1 length=36

问题来了，明明已经可以通过ID后面的"1"和"2"来区分ID，加这个参数干嘛。加完之后还会让后续的BWA报错。所以，没事千万别加

原始格式

默认情况下输出的文件的ID都是SRR开头，但其实原始数据名字不是这样子，比如说@ST-E00600:143:H3LJWALXX:1:1101:5746:1016 2:N:0:CCTCCTGA,@HWI-ST620:248:HB11HADXX:2:1101:1241:2082#0/1这种。如果你想看到那种格式，而不是SRR，你需要怎么做呢?
- F|--origfmt: 仅保留数据名字
- --defline-seq <fmt>: 定义readsID的显示方式
- --defline-qual <fmt>: 定义质量的显示方式

pfastq-dump：多核版fastq-dump ^目录

平常一个SRA格式的转录组数据往往在3G左右，使用hisat2 mapping甚至不用转换成fastq格式，直接就支持SRA，而如果使用BWA做mapping，则必须转换成fastq格式，一旦SRA文件过大，转换过程也要花费很多时间，一个500G的小麦重测序数据则需要40个小时不止，时间就是金钱，在这浪费时间就是浪费金钱呢！

$ git clone https://github.com/inutano/pfastq-dump

$ cd pfastq-dump

$ chmod a+x bin/pfastq-dump

当然要想正常使用，前提是要保证NCBI的那个fastq-dump也能正常运行

使用：

$ pfastq-dump -t <number of threads> [options] <path to .sra file> [<path> ...]

单端

$ pfastq-dump--threads 8 --outdir /path/to/outdir /path/to/SRR000001.sra

双端

$ pfastq-dump--threads 10 --outdir ././SRR5873710.sra --split-3 --gzip

samtools和picard的排序问题 ^目录

samtools和picard都有对SAM/BAM文件进行排序的功能，一般都是基于坐标排序，先是对chromosome/contig进行排序，再在chromosome/contig内部基于start site从小到大排序，对start site排序很好理解，可是对chromosome/contig排序的时候是基于什么标准呢？

基于你提供的ref.fa文件中的chromosome/contig的顺序。当你使用比对工具将fastq文件中的reads比对上参考基因组后会生成SAM文件，SAM文件包含头信息，其中有以@SQ开头的头信息记录，reference中有多少条chromosome/contig就会有多少条这样的记录，而且它们的顺序与ref.fa是一致的。

当使用samtools或picard对SAM/BAM文件进行排序时，这些工具就会读取头信息，按照头信息指定的顺序来排chromosome/contig。所以进行排序时需要提供包含头信息的SAM/BAM文件。

conda ^目录

本人一直用的都是Miniconda，所以以下给出的解决方案可能不完全适用于Anaconda的用户

寻找软件所在的镜像 ^目录

用conda安装软件的标准语法格式为：

$ conda install -c <channel> <software>

其中-c这个参数很重要，通过它来指定软件下载的镜像位置

对于我们这些生物信息学的从业人员来说，最常用的channel（这里可以理解成镜像）就是bioconda了，如果想要安装生物信息学，一般都会先到 bioconda官网上找一找自己想要的软件在不在bioconda的官方镜像的列表中

这里以搜索BWA为例

如果软件正好在bioconda官方镜像里，万事大吉，直接用下面的命令安装就可以了

$ conda install -c bioconda bwa

如果你已经将bioconda这个channel加到自己的默认channel列表中，则不指定-c参数也可以

但是如果你要的软件不在bioconda中怎么办？

这时你可以通过执行 anaconda search -t <software>来列出保存目标软件的所有官方镜像

比如，如果你要安装CNVnator（这是一个安装过程神级坑的软件），它就不在bioconda中，执行

$ anaconda search -t cnvnator

得到的检索结果如下：

Using binstar api site https://api.anaconda.org
Run 'anaconda show <USER/PACKAGE>' to get more details:
Packages:
     Name                      |  Version | Package Types   | Platforms
     ------------------------- |   ------ | --------------- | ---------------
     pwwang/cnvnator           |    0.3.3 | conda           | linux-64
                                          : a tool for CNV discovery and genotyping from depth-of-coverage by mapped reads
Found 1 packages

通过上面的检索结果我们就知道目前只有唯一一个保存CNVnator的conda镜像，为pwwang，这是就可以通过指定刚才找到的镜像完成软件的安装了：

$ conda install -c pwwang cnvnator

conda中的Python与系统自带的Python打架 ^目录

在你安装完conda（不论是Anaconda还是Miniconda），它会自带安装对应的Python版本，而你的系统原先也安装了Python，这时两个来源两个版本的Python会发生冲突，使得你新安装的conda运行报错，比如简单地运行 conda list，会出现以下一长串的报错信息：

Error processing line 1 of /usr/local/lib/python2.7/site-packages/matplotlib-2.1.2-py2.7-nspkg.pth:

Fatal Python error: initsite: Failed to import the site module
Traceback (most recent call last):
  File "/disk2/yut/SOFTWARE/miniconda3/lib/python3.7/site.py", line 168, in addpackage
    exec(line)
  File "<string>", line 1, in <module>
  File "/disk2/yut/SOFTWARE/miniconda3/lib/python3.7/importlib/util.py", line 14, in <module>
    from contextlib import contextmanager
  File "/disk2/yut/SOFTWARE/miniconda3/lib/python3.7/contextlib.py", line 5, in <module>
    from collections import deque
  File "/disk2/yut/SOFTWARE/miniconda3/lib/python3.7/collections/__init__.py", line 27, in <module>
    from reprlib import recursive_repr as _recursive_repr
  File "/usr/local/lib/python2.7/site-packages/reprlib/__init__.py", line 7, in <module>
    raise ImportError('This package should not be accessible on Python 3. '
ImportError: This package should not be accessible on Python 3. Either you are trying to run from the python-future src folder or your installation of python-future is corrupted.

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "/usr/local/lib/python2.7/site-packages/site.py", line 73, in <module>
    __boot()
  File "/usr/local/lib/python2.7/site-packages/site.py", line 47, in __boot
    addsitedir(item)
  File "/disk2/yut/SOFTWARE/miniconda3/lib/python3.7/site.py", line 207, in addsitedir
    addpackage(sitedir, name, known_paths)
  File "/disk2/yut/SOFTWARE/miniconda3/lib/python3.7/site.py", line 178, in addpackage
    import traceback
  File "/disk2/yut/SOFTWARE/miniconda3/lib/python3.7/traceback.py", line 3, in <module>
    import collections
  File "/disk2/yut/SOFTWARE/miniconda3/lib/python3.7/collections/__init__.py", line 27, in <module>
    from reprlib import recursive_repr as _recursive_repr
  File "/usr/local/lib/python2.7/site-packages/reprlib/__init__.py", line 7, in <module>
    raise ImportError('This package should not be accessible on Python 3. '
ImportError: This package should not be accessible on Python 3. Either you are trying to run from the python-future src folder or your installation of python-future is corrupted.

仔细阅读上面的报错信息，你会发现这就是系统的Python和conda里的Python冲突了（我喜欢称这种现象为掐架、打架），这也是conda这个软件安装神器在给你带来方便的同时带来的副产品：它会污染你的环境变量！

遇到两个Python环境冲突的情况，我一般的解决情况就是，关闭系统的Python，即将系统的Python路径从我的环境变量中删除

$ export PYTHONPATH=''

再执行conda list就不会再报错了

软件太大老是下载中断 ^目录

在用conda安装软件的过程中还会经常遇到的一个问题，就是：

我要下载一个软件，conda会告诉我这个软件底层依赖好几个其他的软件，需要将它们一起下载安装，这个时候这一大堆软件中可能有几个体量很大，上百MB，很容易下着下着网络连接就中断了，而conda有没有断点下载功能，一旦下载中断，conda就会终止安装进程退出运行

这个时候你可以尝试通过 wget 把那几个很大的软件的安装包下到本地，然后把它们移到conda的默认安装包下载路径下，这样再执行conda install时，就会跳过这几个软件的下载过程

conda的默认安装包下载保存路径为：miniconda3/pkgs

参考资料：

(1) 简书：Fastq-dump: 一个神奇的软件

(2) 科学网博客：SRA快速转fastq---即多核版fastq-dump

(3) GitHub：pfastq-dump README

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

生信软件踩坑记.md

生信软件踩坑记.md

生信软件踩坑记

Fastq-dump ^目录

pfastq-dump：多核版fastq-dump ^目录

samtools和picard的排序问题 ^目录

conda ^目录

寻找软件所在的镜像 ^目录

conda中的Python与系统自带的Python打架 ^目录

软件太大老是下载中断 ^目录

Files

生信软件踩坑记.md

Latest commit

History

生信软件踩坑记.md

File metadata and controls

生信软件踩坑记

Fastq-dump 目录

pfastq-dump：多核版fastq-dump 目录

samtools和picard的排序问题 目录

conda 目录

寻找软件所在的镜像 目录

conda中的Python与系统自带的Python打架 目录

软件太大老是下载中断 目录

Fastq-dump ^目录

pfastq-dump：多核版fastq-dump ^目录

samtools和picard的排序问题 ^目录

conda ^目录

寻找软件所在的镜像 ^目录

conda中的Python与系统自带的Python打架 ^目录

软件太大老是下载中断 ^目录