# SRR 데이터 다운로드 받기
1. SRR toolkit설치
#sudo apt install srr-toolkit을 하게되면 옛날 버전을 다운받아서 사용할 수 없음
srr toolkit은 홈페이지 들어가서 다운로드 받은 후에 압축풀고
vi ~/.bashrc 에서
export path~~~~할 것
2. SRR study id를 알아낼 것
https://trace.ncbi.nlm.nih.gov/Traces/study/?acc=SRP042161 들어가면 runtable과 SRR_Acc_List.txt 다운받을것
2. (선택사항)SRR_ACC_List.txt를 쪼개기
sed -n 1,50p SRR_Acc_List.txt > p1.txt
sed -n 51,100p SRR_Acc_List.txt > p2.txt
sed -n 101,150p SRR_Acc_List.txt > p3.txt
sed -n 151,200p SRR_Acc_List.txt > p4.txt
sed -n 201,250p SRR_Acc_List.txt > p5.txt
sed -n 251,300p SRR_Acc_List.txt > p6.txt
sed -n 301,350p SRR_Acc_List.txt > p7.txt
sed -n 351,400p SRR_Acc_List.txt > p8.txt
sed -n 401,450p SRR_Acc_List.txt > p9.txt
sed -n 451,500p SRR_Acc_List.txt > p10.txt
sed -n 501,550p SRR_Acc_List.txt > p11.txt
sed -n 551,600p SRR_Acc_List.txt > p12.txt
sed -n 601,650p SRR_Acc_List.txt > p13.txt
sed -n 651,700p SRR_Acc_List.txt > p14.txt
sed -n 701,750p SRR_Acc_List.txt > p15.txt
sed -n 751,800p SRR_Acc_List.txt > p16.txt
sed -n 801,851p SRR_Acc_List.txt > p17.txt
sed -n 852,875p SRR_Acc_List.txt > p18.txt
3. for loop와 fasq-dump 사용
#fastq-dump --help로 어떤 기능이 있는지 확인할 것
#/mnt/tools/sratoolkit.2.8.2-1-ubuntu64/bin/fastq-dump -X 5 -Z SRR390728 #-X는 무시해도됨
아래의 명령어를 bash로 만들어서 실행함. 이렇게 하면 샘플들 별로 저장됨.
업데이트 -Z 옵션 필요없는듯
이렇게 하면 .fastq 파일이 샘플별로 생성됨
#!/bin/bash
echo Start
for l in $(cat p1.txt) ; do
echo $l
/mnt/tools/sratoolkit.2.8.2-1-ubuntu64/bin/fastq-dump $l
done
sh patel_down7.sh >> down_res7.txt # 이런식으로 해두면 뭐가 실패했고 뭐가 성공했는지 알 수 있음.
/mnt/tools/sratoolkit.2.8.2-1-ubuntu64/bin/fastq-dump SRR1294663
잘 돌아가면 위와 같이 뜸
다운받은 파일들은 SRR번호와 suffix로 .fq가 붙어있음
다운 받은 파일들은 SRR번호와 suffix로 .fastq가 붙어있음
-Z 옵션 사용하지 말것
#다시 다운받아야할 것들
SRR1294672
SRR1294671
SRR1294673
SRR1294674
SRR1294676
SRR1294675
SRR1294497
SRR1294690
SRR1294694
# SRR 데이터에서 샘플들 얻기
1. fastq 파일 합치기
cat sra_data.fastq sra_data_1.fastq sra_data_2.fastq > sra_merged.fq
2. 샘플 이름 얻기
grep @SRR sra_merged.fq > samples
cut -f1 -d'.' samples | uniq > samples2 # sample명 얻기 구분자는 마침표(.)
'Bioinformatics(생정보학)' 카테고리의 다른 글
TRIMMOMATIC (0) | 2018.04.11 |
---|---|
Inverse normal transformation (0) | 2018.02.25 |
RSEM tools (0) | 2017.11.28 |
유용한 bioinformatics tool들 (0) | 2017.11.16 |
RNAseq-multiple region mapping reads quantification (0) | 2017.09.27 |