728x90
반응형
1. 개요
유전체 영역의 특정 지역의 서열 (A/T/G/C)를 N으로 지워야 할 때가 있을 수 있다.
이 때 사용할 수 있는 방법이다.
2. 내용
a. bedtools를 설치한다
b. 지울영역의 bed파일을 만든다.
bed파일의 형태는 chromosome, start, end이고 tab-deliminated 이며 header가 없어야 한다.
c. bedtools maskfasta [OPTIONS] -fi <input FASTA> -bed <BED/GFF/VCF> -fo <output FASTA>
$ cat test.fa
>chr1
AAAAAAAACCCCCCCCCCCCCGCTACTGGGGGGGGGGGGGGGGGG
$ cat test.bed
chr1 5 10
$ bedtools maskfasta -fi test.fa -bed test.bed -fo test.fa.out
$ cat test.fa.out
>chr1
AAAAANNNNNCCCCCCCCCCGCTACTGGGGGGGGGGGGGGGGGG
https://bedtools.readthedocs.io/en/latest/content/tools/maskfasta.html
maskfasta — bedtools 2.31.0 documentation
maskfasta bedtools maskfasta masks sequences in a FASTA file based on intervals defined in a feature file. The headers in the input FASTA file must exactly match the chromosome column in the feature file. This may be useful for creating your own masked gen
bedtools.readthedocs.io
3. 주의사항
fasta파일의 header정보가 일부 사라진다.
728x90
반응형
'Bioinformatics(생정보학)' 카테고리의 다른 글
계산된 blosum62 점수를 얻는 기능 (0) | 2024.05.27 |
---|---|
Atchley amino acid factor 테이블 (0) | 2024.05.24 |
[de novo assembly] cap3 설치법 (0) | 2024.04.29 |
Samtools 설치법 (0) | 2024.04.23 |
pMHC1 binding benchmark running script (0) | 2024.03.18 |