본문 바로가기

Bioinformatics(생정보학)/데이터

dbgap controlled dataset download

728x90
반응형

1. 개요

 dbgap은 NIH에서 관리하는 유전체 데이터베이스이다. 여기에는 공개된 것도 있지만 다운로드 제한이 걸린 데이터들이 있다. 여기서는 제한이 걸린 controlled dataset을 어떻게 다운받는지 말하고자 한다.

여기서 전제조건은 dbgap에서 연구제안서가 승인되서 다운로드 허가가 난 경우를 가정한다.

 

2. 준비물

당연하겠지만 sratoolkit이 있어야 한다.

이 글에서는 3.0.1 버전으로 했었다.

https://github.com/ncbi/sra-tools

 

3. 과정

  • dbgap 로그인 후 My Research Projects에서 승인 받은 데이터셋을 찾는다.
    get dbGap repository key를 누른 후 file selector를 클릭한다.
  • 전체파일을 선택한 후 파일들을 다운 받는다.
    빨간색 화살표를 순서대로 누르면 된다. 그러면 2개의 파일을 받게된다.
  • 그후 다운 받고 싶은 경로에서 아래의 명령어를 실행한다
# --max-size 100g는 다운 받을 때 최대용량을 의미하며 어지간해서는 100g안에 다 다운 받을 수 있다.
# 기본설정값은 20g인데 이 때면 WGS가 안될 수도 있다.
/path/to/prefetch --ngc your_file.ngc --cart cart_prj#######.krt --max-size 100g

/path/to/prefetch --ngc your_file.ngc SRP278xxx --max-size 100g

# 위의 방식은 대량으로 다운 받는 것이고 각각의 파일 별로 다운 받는 방식은 아래와 같다.
# 대량으로 다운받을 때 문제는 너무 많은 파일이 있는 경우에 time-out되서 프로그램이 끝나는 것이 있다.

/path/to/prefetch --ngc your_file.ngc SRR278xxx --max-size 100g

  • 이후 해당 파일의 암호를 풀어준다 (decrypt).
/path/to/vdb-decrypt --ngc your_file.ngc enc_file.xml
728x90
반응형

'Bioinformatics(생정보학) > 데이터' 카테고리의 다른 글

GIAB 데이터  (0) 2023.09.20
Synder 코호트 메타 및 돌연변이 정보  (0) 2023.02.28
IEDB dataset  (0) 2022.06.13
Cancer patient survival cohort  (0) 2021.11.23
CMap (Connectivity map)  (0) 2017.06.14