본문 바로가기

DeepLearning/Pattern recognition and Machine learning

[PRML] 2. Probability distributions (확률 분포들)

728x90
반응형

1. 개요

 챕터 1에서 우리는 확률 이론들이 패턴인식 문제들에서 어떻게 중요한 역할을 하는지 다뤘습니다. 이제 몇 가지 특이한 확률 분포들에 대해 탐험하고 그것들의 특징을 다룰 것입니다. 이러한 분포들은 보다 복잡한 모델을 다루기 위한 기초로서 이 책 전체를 걸쳐 많이 사용하게 될 것입니다. 

 

2. 내용

  • 이 챕터에서 다뤄지는 분포의 역할은 유한한 원소로 이루어진 집합 x들에대한 무작위 변수 x의 확률분포 p(x)를 모델링하는 것입니다. 이것이 밀도 예측 (density estimation)이라는 문제라고 합니다. 챕터에서 이에 대한 논의를 위해 샘플들은 i.i.d (independent and identically distributed)라고 가정하겠습니다.
  • 여기서 주의할점은, 밀도 예측 문제는 근본적으로 타당치 않다는 것 (ill-posed)입니다. 왜냐하면, 관측된 유한한 데이터셋에 대해 무한히 많은 확률분포가 가능하기 때문입니다. 실제로 관측 포인트가 0이 안되게 하는 모든 p(x)가 가능한 후보입니다. 적절한 분포를 선택하는 것은 챕터 1에서 다뤘던 다항함수 커브피팅 문제와 연관되어 있습니다.
  • 먼저, 이항분포 (binomial)과 다항분포 (multinomial distribution)를 이산 변수들에 대해 고려하고 연속적인 무작위 변수에 대해서는 정규분포 (Gaussian distribution)으로 다루겠습니다. 이러한 분포들과 같이 몇 가지 파라미터들로 분포들을 특징을 정할 수 있는 것들을 모수 분포 (parametric distribution)이라 합니다. 예를들면, 정규분포의 평균과 편차가 있죠.
  • 이 문제에 대해 모델들을 적용하기위해서는 주어진 데이터셋에 대한 적합한 값들을 파라미터에 결정하는 단계가 필요함. 빈도주의적 접근에서는 가능도함수와 같은 몇 가지 기준을 최적화 하는 것으로 특정 값을 선택함. 반면, 베이지안 접근에서는 사전 확률을 파라미터들에 적용하고 베이즈 정리에 따라 사후확률을 관측 데이터에 적용해서 산출함.
  • 결합 사전 확률 (conjugate priors)들의 중요한 역할을 살펴볼겁니다. 이것은 사전확률과 같은 기능적 형태를 갖는 사후확률로 이어집니다. 그리고 베이지안 분석을 굉장히 간단하게 만들어줍니다. 예를들어, 다항분포에 대한 파라미터들의 결합 사전 확률은 디리클레 분포 (Dirichlet distribution)이라 합니다. 동시에, 어느 한 가지 가우시안의 평균에 대한 결합 분포는 다른 가우시안 분포를 따릅니다. 이러한 분포들의 예들은 분포들의 지수족 (exponential family)의 예입니다. 이것에 대한 특징은 추후 더 논의하겠습니다.
  • 이러한 모수적 방식 (parametric approach)의 한계는 특정한 함수의 분포를 가정한다는데에 있습니다. 이것은 특정 상황에서는 부적절한 경우들이 있습니다. 이에대한 대안으로는 비모수적 밀도 예측 방법들 (nonparametric density estimation methods)들이 있습니다. 이것의 분포는 데이터셋의 크기에 의존하는 특징이 있습니다. 이러한 모델들도 파라미터를 가지고 있지만 이것들은 분포의 형태를 조절하기보다는 모델의 복잡도를 조절합니다. 이 챕터는 히스토그램과 최근접이웃 (nearest-neighbours) 그리고 커널들에 기반한 비모수 방법 3가지를 다루면서 마치겠습니다.
728x90
반응형