SRA数据几种常用的下载方法

发布网友

我来回答

1个回答

热心网友

大部分生物信息学数据来源多样,NCBI、DDBJ和EBI是常见的数据存储平台。部分研究者也会选择将数据上传至github等其他平台供他人获取。

针对NCBI的SRA数据库,我们介绍几种常用的数据下载方法和工具。SRA,主要储存二代测序的原始数据,包括454、Illumina和SOLiD等,现在还包含与参考基因组比对的信息。SRA Toolkit是一个关键工具,它可以直接下载NCBI的SRA数据并转换为fastq格式。为了确保顺利下载,可能需要对SRA Toolkit进行配置,尤其是对于需要自定义文件处理的用户。

除了通过conda进行安装外,你还可以通过SRA Toolkit官网选择适合自己操作系统的版本。使用prefetch这个工具,只需输入SRA号即可下载,例如文献SRR15927225的数据。对于大量数据,可以参考《多行命令并行管理》一文进行并行处理。

除了prefetch,wget也是一种下载工具。以SRR15927225为例,通过NCBI搜索找到数据链接后,直接使用wget命令下载。Aspera则是IBM公司的高速传输软件,其faspTM技术能快速高效地传输数据,当安装了Aspera后,prefetch会优先使用fasp进行数据传输。

Aspera的使用较为复杂,需要预先了解私匙路径。conda安装的私匙通常在anaconda3/etc/目录,官网安装则在~/.aspera/connect/etc/。使用Aspera下载时,只需修改SRA ID即可,如从NCBI切换到EBI,只需调整URL前缀。

SRA-Explorer是一个网页端应用,简化了SRA数据的检索和下载过程。以PRJNA763991为例,添加项目到“购物车”后,可以下载FastQ和SRA数据,有多种下载选项。在使用Aspera下载脚本时,需注意修改私匙路径。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com