본문 바로가기

Bioinformatics(생정보학)

STAR aligner

728x90
반응형

# RNAseq에서 쓰일 수 있는 aligner임.

http://labshare.cshl.edu/shares/gingeraslab/www-data/dobin/STAR/STAR.posix/doc/STARmanual.pdf


# 설치, 2.5.4b가 가장 최신이므로 이걸 설치함.

wget --no-check-certificate https://github.com/alexdobin/STAR/archive/2.5.4b.zip

unzip 2.5.4b.zip

cd source && make

vi /etc/bashrc

alias STAR='/path_to_STAR/STAR' #맨 아래에 붙여넣고 저장

source /etc/bashrc

STAR


# Reference index만들기, GRCH37.75 ENSEMBL버전이 있다고 가정하겠음.
wget --no-check-certificate http://labshare.cshl.edu/shares/gingeraslab/www-data/dobin/STAR/STARgenomes/ENSEMBL/homo_sapiens/ENSEMBL.homo_sapiens.release-75/Homo_sapiens.GRCh37.75.dna.primary_assembly.fa # Reference Genome 다운로드

wget --no-check-certificate ftp.ensembl.org/pub/release-75/gtf/homo_sapiens/Homo_sapiens.GRCh37.75.gtf.gz # GTF 파일 다운로드

gunzip Homo_sapiens.GRCh37.75.gtf.gz


mkdir STAR_GTF

cd STAR_GTF

STAR --runThreadN 10 --runMode genomeGenerate \

--genomeDir /path/to/genomeDir \

--genomeFastaFiles /path/to/genome/fasta1 \

--sjdbGTFfile /path/to/annotations.gtf



# Align the read to genome by STAR 2-pass

# 이걸 하게되면 GTF 파일에 기록된 junction에 대해서 뿐만 아니라 novel junction에 대해서도 sensitivity가 높아짐.

STAR --runThreadN 12 --genomeDir /path/to/reference_STAR_genome_files \

--sjdbGTFfile /path/to/reference_GTF \

--readFilesIn /path/to/paired_1.fastq /path/to/paired_2 \

--twopassMode Basic \

--outFileNamePrefix 파일prefix \

--outSAMtype BAM SortedByCoordinate \ # 이건 sorted BAM파일로 출력하기 위한 옵션임. SAM으로 출력할거면 그냥 지우고하면됨.

--readFilesCommand zcat \ #이거의 경우는 .gz file의 경우에 쓸것


728x90
반응형

'Bioinformatics(생정보학)' 카테고리의 다른 글

bcftools, VCF 파일 다루기  (0) 2018.04.23
RNAseq variant calling  (2) 2018.04.12
TRIMMOMATIC  (0) 2018.04.11
Inverse normal transformation  (0) 2018.02.25
srr 데이터 다루기  (0) 2017.11.28