# RNAseq에서 쓰일 수 있는 aligner임.
http://labshare.cshl.edu/shares/gingeraslab/www-data/dobin/STAR/STAR.posix/doc/STARmanual.pdf
# 설치, 2.5.4b가 가장 최신이므로 이걸 설치함.
wget --no-check-certificate https://github.com/alexdobin/STAR/archive/2.5.4b.zip
unzip 2.5.4b.zip
cd source && make
vi /etc/bashrc
alias STAR='/path_to_STAR/STAR' #맨 아래에 붙여넣고 저장
source /etc/bashrc
STAR
# Reference index만들기, GRCH37.75 ENSEMBL버전이 있다고 가정하겠음.
wget --no-check-certificate http://labshare.cshl.edu/shares/gingeraslab/www-data/dobin/STAR/STARgenomes/ENSEMBL/homo_sapiens/ENSEMBL.homo_sapiens.release-75/Homo_sapiens.GRCh37.75.dna.primary_assembly.fa # Reference Genome 다운로드
wget --no-check-certificate ftp.ensembl.org/pub/release-75/gtf/homo_sapiens/Homo_sapiens.GRCh37.75.gtf.gz # GTF 파일 다운로드
gunzip Homo_sapiens.GRCh37.75.gtf.gz
mkdir STAR_GTF
cd STAR_GTF
STAR --runThreadN 10 --runMode genomeGenerate \
--genomeDir /path/to/genomeDir \
--genomeFastaFiles /path/to/genome/fasta1 \
--sjdbGTFfile /path/to/annotations.gtf
# Align the read to genome by STAR 2-pass
# 이걸 하게되면 GTF 파일에 기록된 junction에 대해서 뿐만 아니라 novel junction에 대해서도 sensitivity가 높아짐.
STAR --runThreadN 12 --genomeDir /path/to/reference_STAR_genome_files \
--sjdbGTFfile /path/to/reference_GTF \
--readFilesIn /path/to/paired_1.fastq /path/to/paired_2 \
--twopassMode Basic \
--outFileNamePrefix 파일prefix \
--outSAMtype BAM SortedByCoordinate \ # 이건 sorted BAM파일로 출력하기 위한 옵션임. SAM으로 출력할거면 그냥 지우고하면됨.
--readFilesCommand zcat \ #이거의 경우는 .gz file의 경우에 쓸것
'Bioinformatics(생정보학)' 카테고리의 다른 글
bcftools, VCF 파일 다루기 (0) | 2018.04.23 |
---|---|
RNAseq variant calling (2) | 2018.04.12 |
TRIMMOMATIC (0) | 2018.04.11 |
Inverse normal transformation (0) | 2018.02.25 |
srr 데이터 다루기 (0) | 2017.11.28 |