본문 바로가기

Bioinformatics(생정보학)

RNAseq variant calling

728x90
반응형

BROAD institute bestpractice대로 진행함.

단 아래 사이트에 있는 것이 오래된 버전인지 명령어 중에 안되는 것들이 있어서 수정을함.

썼던 스크립트 파일은 함께 첨부함.

https://software.broadinstitute.org/gatk/documentation/article.php?id=3891


간단한 순서 및 스크립트들

1. STAR 2-pass로 alignment진행

2. GATK AddOrReplaceReadGroups 실행

gatk AddOrReplaceReadGroups I=star_output.sam O=rg_added_sorted.bam SO=coordinate RGID=id RGLB=library RGPL=platform RGPU=machine RGSM=sample 

3. MarkDuplicates로 PCR duplicates 제거

4. SplitNCigar 실행

[ -U ALLOW_N_CIGAR, ReassignOneMappingQuality, RMQF 등등은 4.0 버전 이후로 사라짐, 3.0때까지는 존재함. 따라서 없이 실행함]

[reference genome fasta 파일에 대한 .dict파일과 .fai파일 필요함]

5. Base Recalibration 실행

6. V


BaseRecalibrator나 Mutect용 dbSNP들은 다음으로 들어가서 하면 됨.

https://www.ncbi.nlm.nih.gov/variation/docs/human_variation_vcf/ # dbsnp mapping된 genome확인할 것 common_all.vcf.gz

ftp://ftp.ensembl.org/pub/grch37/update/variation/vcf/homo_sapiens/1000GENOMES-phase_3.vcf.gz  #1000genome phase3 GRCH37용

728x90
반응형

'Bioinformatics(생정보학)' 카테고리의 다른 글

FPKM to TPM conversion  (0) 2018.05.01
bcftools, VCF 파일 다루기  (0) 2018.04.23
STAR aligner  (0) 2018.04.11
TRIMMOMATIC  (0) 2018.04.11
Inverse normal transformation  (0) 2018.02.25