본문 바로가기

R관련

단백질(protein) sequence 얻는 법

728x90
반응형

library(biomaRt)

ensembl=useMart(biomart='ensembl',dataset = "hsapiens_gene_ensembl")

#gene symbol로 하는 경우

human.prot = getSequence(id="BRCA1", mart=ensembl, seqType=c("peptide"), type="hgnc_symbol")

#ensembl_transcript로 하는 경우

getSequence(id=tmp2,mart = ensembl, seqType = 'peptide',type = 'ensembl_transcript_id')


#GRCh 37로 하는 경우

grch37 = useMart(biomart="ENSEMBL_MART_ENSEMBL", host="grch37.ensembl.org", path="/biomart/martservice", dataset="hsapiens_gene_ensembl")


uniprot ID로 하기

install.packages('rjson')

install.packages('RCurl') #이 경우 R session이 restart할 것임


u<- getURL("http://togows.dbcls.jp/entry/uniprot/Q8TC16.json") #URL의 내용을 다운로드 받음 페이지를 

#copy paste한다고 생각하면됨

#빨간색 음영을 칠한 부분을 uniprot ID를 넣으면 됨


j <- fromJSON(u) # 난잡하게 되어 있는 것을 정리해줌

# JSON object를 R object로 변환해준다고 함.


여기서 

j[[1]]$seq 은 sequence이고

j[[1]]$gene_name은 gene symbol임


혹은 (아직 테스트 안해봄)

tmp=paste("http://www.uniprot.org/uniprot/",tmp1,sep="")

    tmp=getURL(tmp)

    tmp=unlist(strsplit(tmp,"\""))

    tmp=unlist(strsplit(tmp,"[\\\\]|[^[:print:]]"))

    tmp=tmp[grep(tmp,pattern="sp|tmp1")][1]

    tmp=unlist(strsplit(tmp,".",fixed = T))[1]

    tmp=gsub(tmp,pattern=" ",replacement = "")

728x90
반응형

'R관련' 카테고리의 다른 글

크롤링과 스크랩핑  (0) 2017.01.18
특정 패키지 인스톨 여부 확인  (0) 2017.01.16
x축 없애고 plot하기  (0) 2017.01.16
package detach하는법  (0) 2017.01.16
R에서 사용되는 기호들과 의미 (%)  (0) 2017.01.16