728x90
반응형
생명정보학에서 DNA/RNA/단백질 서열 분석은 자주 필요한 것이다.
이러한 것들은 fasta라고 하는 것으로 일반적으로 정리되어 있다.
biopython에서는 이를 손쉽게 불러들여와서 전처리해주는 기능이 있다.
from Bio import SeqIO
# 아래는 fasta파일의 용량이 작을 때 사용하기 용이하다.
record_dict = SeqIO.to_dict(SeqIO.parse("example.fasta", "fasta"))
print(record_dict["gi:12345678"]) # use any record ID
# 아래는 fasta파일의 용량이 클 때 사용한다.
# 필요한 부분만 사용자가 찾을 때 값을 반환한다.
from Bio import SeqIO
record_dict = SeqIO.index("example.fasta", "fasta")
print(record_dict["gi:12345678"]) # use any record ID
https://biopython.org/wiki/SeqIO
728x90
반응형
'파이썬3 > biopython' 카테고리의 다른 글
[biopython] Gene symbol/alias/Entrez id얻기 (0) | 2022.06.02 |
---|---|
[biopython] NCBI에서 단백질 서열 (protein sequence) 얻기 (0) | 2022.05.30 |