본문 바로가기

Bioinformatics(생정보학)

srr 데이터 다루기

728x90
반응형
# SRR 데이터 다운로드 받기

1. SRR toolkit설치

#sudo apt install srr-toolkit을 하게되면 옛날 버전을 다운받아서 사용할 수 없음

srr toolkit은 홈페이지 들어가서 다운로드 받은 후에 압축풀고

vi ~/.bashrc 에서

export path~~~~할 것

2. SRR study id를 알아낼 것

https://trace.ncbi.nlm.nih.gov/Traces/study/?acc=SRP042161 들어가면 runtable과 SRR_Acc_List.txt 다운받을것


2. (선택사항)SRR_ACC_List.txt를 쪼개기

sed -n 1,50p SRR_Acc_List.txt > p1.txt

sed -n 51,100p SRR_Acc_List.txt > p2.txt

sed -n 101,150p SRR_Acc_List.txt > p3.txt

sed -n 151,200p SRR_Acc_List.txt > p4.txt

sed -n 201,250p SRR_Acc_List.txt > p5.txt

sed -n 251,300p SRR_Acc_List.txt > p6.txt

sed -n 301,350p SRR_Acc_List.txt > p7.txt

sed -n 351,400p SRR_Acc_List.txt > p8.txt

sed -n 401,450p SRR_Acc_List.txt > p9.txt

sed -n 451,500p SRR_Acc_List.txt > p10.txt

sed -n 501,550p SRR_Acc_List.txt > p11.txt

sed -n 551,600p SRR_Acc_List.txt > p12.txt

sed -n 601,650p SRR_Acc_List.txt > p13.txt

sed -n 651,700p SRR_Acc_List.txt > p14.txt

sed -n 701,750p SRR_Acc_List.txt > p15.txt

sed -n 751,800p SRR_Acc_List.txt > p16.txt

sed -n 801,851p SRR_Acc_List.txt > p17.txt
sed -n 852,875p SRR_Acc_List.txt > p18.txt



3. for loop와 fasq-dump 사용

#fastq-dump --help로 어떤 기능이 있는지 확인할 것

#/mnt/tools/sratoolkit.2.8.2-1-ubuntu64/bin/fastq-dump -X 5 -Z SRR390728 #-X는 무시해도됨


아래의 명령어를 bash로 만들어서 실행함. 이렇게 하면 샘플들 별로 저장됨.

업데이트 -Z 옵션 필요없는듯

이렇게 하면 .fastq 파일이 샘플별로 생성됨

#!/bin/bash
echo Start
for l in $(cat p1.txt) ; do
    echo $l
    /mnt/tools/sratoolkit.2.8.2-1-ubuntu64/bin/fastq-dump $l

done


sh patel_down7.sh >> down_res7.txt # 이런식으로 해두면 뭐가 실패했고 뭐가 성공했는지 알 수 있음.


/mnt/tools/sratoolkit.2.8.2-1-ubuntu64/bin/fastq-dump SRR1294663


잘 돌아가면 위와 같이 뜸


다운받은 파일들은 SRR번호와 suffix로 .fq가 붙어있음

다운 받은 파일들은 SRR번호와 suffix로 .fastq가 붙어있음

-Z 옵션 사용하지 말것



#다시 다운받아야할 것들

SRR1294672

SRR1294671

SRR1294673

SRR1294674

SRR1294676

SRR1294675


SRR1294497

SRR1294690

SRR1294694



# SRR 데이터에서 샘플들 얻기


1. fastq 파일 합치기

cat sra_data.fastq sra_data_1.fastq sra_data_2.fastq > sra_merged.fq


2. 샘플 이름 얻기

grep @SRR sra_merged.fq > samples

cut -f1 -d'.' samples | uniq > samples2 # sample명 얻기 구분자는 마침표(.)




728x90
반응형

'Bioinformatics(생정보학)' 카테고리의 다른 글

TRIMMOMATIC  (0) 2018.04.11
Inverse normal transformation  (0) 2018.02.25
RSEM tools  (0) 2017.11.28
유용한 bioinformatics tool들  (0) 2017.11.16
RNAseq-multiple region mapping reads quantification  (0) 2017.09.27