본문 바로가기

Bioinformatics(생정보학)/알고리즘

클러스터링 (clustering) 평가 지표

728x90
반응형

Unsupervised-learning시에 사용되는 평가 지표

Silhouette width 

 

Dunn index (Silhouette index)

https://en.wikipedia.org/wiki/Dunn_index

 

Calinski-Harabasz Index (Variance Ratio Criterion)

 

Davies-Bouldin Index

https://en.wikipedia.org/wiki/Davies%E2%80%93Bouldin_index

 

Cophenetic correlation coefficient

https://en.wikipedia.org/wiki/Cophenetic_correlation

모델링이 안된 데이터 포인트들 간의 pairwise 관계를 dendrogram이 얼만큼 잘 보존 했는가를 평가함.

사용하기 위해서는 dendrogram이 필요하므로 consensus clustering을 통해 각 k별 pairwise관계를 정립한 후 dendrogram을 계산해서 사용됨.

 

Supervised-learning시에 사용되는 평가 지표

정답을 정확하게 알고 있을 때 사용가능한 클러스터링 평가 지표임.

예를들어 개와 고양이처럼 정확하게 사용자가 분류할 수 있고 정확하게 라벨링이 가능한 경우에 사용가능.

 

Rand index

 

Adjusted Rand Index

 

Mutual information

 

출처 : https://towardsdatascience.com/performance-metrics-in-machine-learning-part-3-clustering-d69550662dc6

 

Performance Metrics in Machine Learning — Part 3: Clustering

Using the right performance metric for the right task

towardsdatascience.com

https://cran.r-project.org/web/packages/clusterCrit/vignettes/clusterCrit.pdf

 

728x90
반응형

'Bioinformatics(생정보학) > 알고리즘' 카테고리의 다른 글

조건부 확률 (conditional probability)  (0) 2022.02.06
베이지언 통계의 개념  (0) 2022.02.06
Finding shortest path in a (un)directed network.  (0) 2021.12.16
Boolean network  (0) 2021.12.07
Network 용어  (0) 2021.11.30