본문 바로가기

파이썬3/biopython

[biopython] fasta파일 불러들이기 생명정보학에서 DNA/RNA/단백질 서열 분석은 자주 필요한 것이다. 이러한 것들은 fasta라고 하는 것으로 일반적으로 정리되어 있다. biopython에서는 이를 손쉽게 불러들여와서 전처리해주는 기능이 있다. from Bio import SeqIO # 아래는 fasta파일의 용량이 작을 때 사용하기 용이하다. record_dict = SeqIO.to_dict(SeqIO.parse("example.fasta", "fasta")) print(record_dict["gi:12345678"]) # use any record ID # 아래는 fasta파일의 용량이 클 때 사용한다. # 필요한 부분만 사용자가 찾을 때 값을 반환한다. from Bio import SeqIO record_dict = SeqIO.i.. 더보기
[biopython] Gene symbol/alias/Entrez id얻기 유전자 분석을 하면 결국 official genesymbol이나 entrez id등을 활용할 필요가 생긴다. 이를 위한 스크립트는 아래와 같다. def get_entrez(x=None,human_only=True): if x is None: print( ''' 이 기능은 주어진 유전자의 input/symbol/Aliases/entrez 아이디를 돌려주는 기능임 NCBI에 등록된 것을 기준으로 하기에 최신 정보만 들어옴 실행 전에 아래의 명령어를 실행할 것 1) from Bio import Entrez 2) Entrez.email = 'email@address.com' param x: gene name/id (ex. 'TP53', 'P29996', ...) param human_only: True일 경우 .. 더보기
[biopython] NCBI에서 단백질 서열 (protein sequence) 얻기 단백질 서열을 사용해야할 때가 가끔 있다. 이 경우 NCBI에 등록된 id라면 biopython으로 쉽게 단백질 서열을 얻을 수 있다. from Bio import Entrez Entrez.email = "이메일@주소.com" def retrieve_peptideSeq_from_uniprot(x=None): if x is None: print( ''' This function retrieves peptide sequence for the given geneID. Before use this, please do following steps. from Bio import Entrez Entrez.email = 'email@address.com' param x: uniprot ID such as P29996 .. 더보기