본문 바로가기

Bioinformatics(생정보학)/알고리즘

Position specific scoring matrix (PSSM) 구하는 방법 https://bioconductor.org/packages/release/bioc/vignettes/universalmotif/inst/doc/IntroductionToSequenceMotifs.pdf 더보기
조건부 확률 (conditional probability) 조건부 확률은 서로 연관된 2가지 사건들의 확률을 말한다. 예를들어 '영하 1도 날씨에서 눈이 내릴 확률'과 같은 경우이다. 이렇게 조건이 있고 어떤 사건이 발생할 확률을 계산하는 것이 조건부 확률이다. 위의 영하 1도 날씨란 것과 눈이 내리는 것을 사건 A와 사건 B로 두면 아래의 수식으로 풀어 쓸 수 있다. 위의 수식은 '사건 B가 발생했을 때, 사건 A가 발생할 확률'이라는 의미를 갖고 있다. 수식을 통해 알겠지만 P(A|B)는 P(B|A)와 같을 수도 있고 다를 수도 있다. 즉 1. '영하 1도 날씨에서 눈이 내릴 확률' 2. '눈이 내렸을 때 영하 1도일 확률' 두 경우의 확률은 반드시 항상 같은 것은 아니다. 간단한 예로 조건부 확률을 계산해보자. 어떤 회사에서 구인을 했더니 A대학에서 250.. 더보기
베이지언 통계의 개념 이 글은 베이지언이 개념을 수학수식 없이 간단하게 소개하기 위한 글이다. 통계학은 불확실성에 대한 학문이다. 그리고, 이 불확실하다는 것을 정량화 한 것이 확률이다. 우리가 주사위를 굴렸을 때 숫자가 짝수일지 홀수일지 예측하는 것, 자동차 사고가 날지 예측하는 것, 내일 비가 올지 안올지 등을 예측할 때 모두 확률이 사용된다. 이런 문제들에 대해 3가지 통계접근법이 있다. 고전 (classical), 빈도 (frequentist) 그리고 베이지언 (bayesian)이다. 고전적인 방식 먼저 고전적인 방식은 사건들의 발생확률이 거의 동일하다고 (equally likely) 전제하는 것이다. 주사위가 조작되지 않았다면 1부터 6에 이르는 숫자들이 주사위 윗면에 나올 확률이 동일하다. 또는 동전과 같이 앞/뒤.. 더보기
클러스터링 (clustering) 평가 지표 Unsupervised-learning시에 사용되는 평가 지표 Silhouette width Dunn index (Silhouette index) https://en.wikipedia.org/wiki/Dunn_index Calinski-Harabasz Index (Variance Ratio Criterion) Davies-Bouldin Index https://en.wikipedia.org/wiki/Davies%E2%80%93Bouldin_index Cophenetic correlation coefficient https://en.wikipedia.org/wiki/Cophenetic_correlation 모델링이 안된 데이터 포인트들 간의 pairwise 관계를 dendrogram이 얼만큼 잘 보존 했는.. 더보기
Finding shortest path in a (un)directed network. 파이썬의 networkx 라이브러리는 directional이나 undirectional에 대해 shortest path를 찾기 매우 용이하다. 알고리즘은 dijkstra이 default이다. directional의 경우 nx.DiGraph()로 만들어줘야한다. ''' tutorial B->A->D #1 A->C->D->E->B #2 ''' #------------------------------------ # un-directional network #------------------------------------ import networkx as nx undirection_net=nx.Graph() undirection_net.add_edge('b','a') #1 undirection_net.add_.. 더보기
Boolean network https://cran.r-project.org/web/packages/BoolNet/vignettes/BoolNet_package_vignette.Snw.pdf BoolNet 참조하면 좋은 논문 Network Analysis Identifies Regulators of Basal-Like Breast Cancer Reprogramming and Endocrine Therapy Vulnerability DOI: 10.1158/0008-5472.CAN-21-0621 해당 논문은 git-hub을 제공하지 않았기 때문에 method로 유추할 때 1) 저자들이 supplementary 3의 논문들로 boolean network를 만들고 [28개 유전자] 2) 이를 BoolNet package에서 initial .. 더보기
Network 용어 Degree (k) : The most elementary characteristic of a node is its degree (or connectivity), k, which tells us how many links the node has to other nodes. Degree distribution (Pk) : The degree distribution, P(k), gives the probability that a selected node has exactly k links. P(k) is obtained by counting the number of nodes N(k) with k=1,2,..... links and dividing by the total number of nodes N. T.. 더보기
Principal component analysis (PCA, 주성분 분석) http://tongtongsear.tistory.com http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf 더보기