본문 바로가기

Bioinformatics(생정보학)/데이터

dbgap controlled dataset download 1. 개요 dbgap은 NIH에서 관리하는 유전체 데이터베이스이다. 여기에는 공개된 것도 있지만 다운로드 제한이 걸린 데이터들이 있다. 여기서는 제한이 걸린 controlled dataset을 어떻게 다운받는지 말하고자 한다. 여기서 전제조건은 dbgap에서 연구제안서가 승인되서 다운로드 허가가 난 경우를 가정한다. 2. 준비물 당연하겠지만 sratoolkit이 있어야 한다. 이 글에서는 3.0.1 버전으로 했었다. https://github.com/ncbi/sra-tools 3. 과정 dbgap 로그인 후 My Research Projects에서 승인 받은 데이터셋을 찾는다. get dbGap repository key를 누른 후 file selector를 클릭한다. 전체파일을 선택한 후 파일들을 다운.. 더보기
GIAB 데이터 https://www.nist.gov/programs-projects/genome-bottle Genome in a Bottle Consortium hosted by NIST dedicated to authoritative characterization of benchmark human genomes. Sign up for General GIAB and Analysis Team email lists. Public workshops held annually - next workshop will be rescheduled after COVID-19. Interested in job www.nist.gov https://www.ncbi.nlm.nih.gov/bioproject/PRJNA200694 Homo s.. 더보기
Synder 코호트 메타 및 돌연변이 정보 pdf파싱 후 엑셀에 맞게 변형함. 엑셀로 만들어야할 데이터들을 pdf로 만들어서 내보내는 NEJM의 변태성인지 아니면 저자들의 변태성인지 모르겠지만 여튼 정리하느라 무척 힘들었다. https://pubmed.ncbi.nlm.nih.gov/25409260/ Genetic basis for clinical response to CTLA-4 blockade in melanoma - PubMed These findings define a genetic basis for benefit from CTLA-4 blockade in melanoma and provide a rationale for examining exomes of patients for whom anti-CTLA-4 agents are being .. 더보기
IEDB dataset https://www.iedb.org/database_export_v3.php IEDB.org: Free epitope database and prediction resource Free resource for searching and exporting immune epitopes. Includes more than 95% of all published infectious disease, allergy, autoimmune, and transplant epitope data. www.iedb.org IEDB 데이터베이스는 여러 곳에서 실험된 mhc-molecule과 peptide 또는 tcell과 면역원성 (immunogenicity)를 측정한 데이터들을 한 곳에 정리한 데이터베이스이다. 더보기
Cancer patient survival cohort 암 데이터는 유전체/전사체/단백체/후성유전체 데이터들이 다양하다. 여기서 가장 중요한 것은 환자 생존 데이터인데 논문을 읽으면서 다운받을 수 있는 것들을 하나씩 정리해 가려고 한다. 회사에서 주로하는 것이 유방암 (BRCA), 대장암 (COAD/READ), 교모세포종 (GBM) 순이라서 다른 암종은 안할 가능성이 높다. https://docs.google.com/spreadsheets/d/1uHW4osRLrTn9oqGtMCShRI7N-CYFoKKc_K8mzlLx6DI/edit?usp=sharing 샘플 수는 논문에서 제시한 최대 수이고 반드시 임상정보나 유전자 관련 정보가 있는 수를 말하는게 아니다. 더보기
CMap (Connectivity map) The Connectivity Map: using gene-expression signatures to connect small molecules, genes, and disease. 이중 repurposing-app에서는 drug target과 clinical phage 등을 확인할 수 있음https://clue.io/repurposing-app 더보기