본문 바로가기

Bioinformatics(생정보학)

fasta 파일의 특정 영역을 N으로 마스킹 (masking) 하기

728x90
반응형

1. 개요

 유전체 영역의 특정 지역의 서열 (A/T/G/C)를 N으로 지워야 할 때가 있을 수 있다.

이 때 사용할 수 있는 방법이다.

 

2. 내용

a. bedtools를 설치한다

b. 지울영역의 bed파일을 만든다.

bed파일의 형태는 chromosome, start, end이고 tab-deliminated 이며 header가 없어야 한다.

c. bedtools maskfasta [OPTIONS] -fi <input FASTA> -bed <BED/GFF/VCF> -fo <output FASTA>

$ cat test.fa
>chr1
AAAAAAAACCCCCCCCCCCCCGCTACTGGGGGGGGGGGGGGGGGG

$ cat test.bed
chr1 5 10

$ bedtools maskfasta -fi test.fa -bed test.bed -fo test.fa.out

$ cat test.fa.out
>chr1
AAAAANNNNNCCCCCCCCCCGCTACTGGGGGGGGGGGGGGGGGG

https://bedtools.readthedocs.io/en/latest/content/tools/maskfasta.html

 

maskfasta — bedtools 2.31.0 documentation

maskfasta bedtools maskfasta masks sequences in a FASTA file based on intervals defined in a feature file. The headers in the input FASTA file must exactly match the chromosome column in the feature file. This may be useful for creating your own masked gen

bedtools.readthedocs.io

 

3. 주의사항

fasta파일의 header정보가 일부 사라진다.

실행 전
실행 후

728x90
반응형