BROAD institute bestpractice대로 진행함.
단 아래 사이트에 있는 것이 오래된 버전인지 명령어 중에 안되는 것들이 있어서 수정을함.
썼던 스크립트 파일은 함께 첨부함.
https://software.broadinstitute.org/gatk/documentation/article.php?id=3891
간단한 순서 및 스크립트들
1. STAR 2-pass로 alignment진행
2. GATK AddOrReplaceReadGroups 실행
gatk AddOrReplaceReadGroups I=star_output.sam O=rg_added_sorted.bam SO=coordinate RGID=id RGLB=library RGPL=platform RGPU=machine RGSM=sample
3. MarkDuplicates로 PCR duplicates 제거
4. SplitNCigar 실행
[ -U ALLOW_N_CIGAR, ReassignOneMappingQuality, RMQF 등등은 4.0 버전 이후로 사라짐, 3.0때까지는 존재함. 따라서 없이 실행함]
[reference genome fasta 파일에 대한 .dict파일과 .fai파일 필요함]
5. Base Recalibration 실행
6. V
BaseRecalibrator나 Mutect용 dbSNP들은 다음으로 들어가서 하면 됨.
https://www.ncbi.nlm.nih.gov/variation/docs/human_variation_vcf/ # dbsnp mapping된 genome확인할 것 common_all.vcf.gz
ftp://ftp.ensembl.org/pub/grch37/update/variation/vcf/homo_sapiens/1000GENOMES-phase_3.vcf.gz #1000genome phase3 GRCH37용
'Bioinformatics(생정보학)' 카테고리의 다른 글
FPKM to TPM conversion (0) | 2018.05.01 |
---|---|
bcftools, VCF 파일 다루기 (0) | 2018.04.23 |
STAR aligner (0) | 2018.04.11 |
TRIMMOMATIC (0) | 2018.04.11 |
Inverse normal transformation (0) | 2018.02.25 |