본문 바로가기

DeepLearning/Pattern recognition and Machine learning

[PRML] 1.2.3 Bayesian probabilities (베이지안 확률들)

728x90
반응형

1. 개요

  • 지금까지 확률을 반복적인 이벤트나 무작위 빈도의 관점에서 서술해왔음. 이것을 확률에 대한 전통적인 (classical) 혹은 빈도주의 자(frequentist)적 접근이라고 부름. 이제는 확률이 불확실성의 정량이 되는 일반적인 베이지안 시점에서 바라보고자 함.
    Now we turn to more general Bayesian view, in which probabilities provide a quantification of uncertainty.
  • 베이지안은 상자와 과일 예제와 같이 수많이 반복 가능한 상황에서 쓰이지 않을 때, 쓰일 수 있다. 예를들어 북극이 이번 세기말에 없어질 확률을 구한다고 할 때, 지구를 관측하는 인공위성으로부터 새로운 정보를 얻고 이를 통해 얼음이 사라지는 속도에 대한 의견을 변경할 수 있다. 이러한 상황들에서 불확실성을 정량하고 싶고 새로운 정보들을 통해 정확한 검토를 하고 싶다. 이럴 때, 우아하고 매우 일반적인 베이지안 관점으로 원하는 것을 얻을 수 있다.

2. 내용

  • 챕터 1.1에서 나왔던 다항함수 커브 피팅 (polynomial curve fitting)의 예를들어보자. 모델 파라미터와 관련된 벡터 w에 대해 적절한 선택을 둘러싼 불확실성을 정량하고 해결하고 싶다. 이것은 베이지안 관점에서 모델의 선택과 파라미터의 불확실성을 기술하는게 가능하다.
  • 상자와 과일 예제를 생각해보면, 과일의 정체에 대한 관측은 선택된 상자가 무엇이었는지에 대한 확률을 변경시킨다. 이 예제에서는 베이즈 정리는 관측된 데이터에서 제공되는 증거 (the evidence)를 고려하여 사전확률 (prior probability)를 사후 확률 (posterior probability)로 변경한다.
  • 우리가 w에 대한 가정은 데이터를 관측하기 전에 사전확률에 대한 분포로서 p(w)로 표현할 수 있다. 관측된 데이터의 영향 D = {t1,.....,tn}은 p(D|w)라는 조건부 확률로 표현된다. 이것은 챕터 1.2.5에서 좀 더 상세히 기술된다. 그러면, 1.43과 같이 수식이 표현된다. 이를 통해 사후확률 p(w|D)의 형태로 데이터를 관측을 한 후에 w의 불확실성을 평가할 수 있게 된다.
    which takes the form 1.43 then allows us to evaluate the uncertainty in w after we have observed D in the form of the posterior probability p(w|D).

수식 1.43

  • 베이즈 정리의 오른쪽에 있는 p(D|w)의 크기는 관측된 데이터셋 D에대해 평가되며 파라미터 w 벡터의 함수로서 여겨질 수 있습니다. 이런 것을 가능도 함수 (likelihood function)이라고 부릅니다. 이것은 파라미터 w 벡터의 개별적인 설정에 따라 관측된 데이터가 얼마나 가능한지를 표현한 것입니다. 여기서, 가능도는 w에 대한 확률 분포가 아니며 합산값이 꼭 1이 되지 않을 수도 있습니다.
  • 가능도에 대한 정의에 따라 베이즈 정리는 1.44와 같이 표현이 됩니다. 여기서 모든 정량값들은 w의 함수로서 간주될 수 있습니다. 

수식 1.44

  • 수식 1.43의 분모 p(D)는 표준화 상수로 좌변의 사후 확률 분포의 합산값이 1이 되도록 해줍니다. 1.43의 양변을 w에 대해 적분을 하게 되면, 사전확률과 가능도 함수에 대한 표현으로 베이즈 정리의 분포를 표현할 수 있습니다. (1.45)

1.45

  • 1.45에 대해서 갑자기 적분이 나오니 당황할 수 있다. 이것은 이렇게 생각하면 된다. w가 가질 수 있는 모든 경우의 수는 p(w)로 표현될 때 p(D)가 출현할 조건부 확률은 p(D|w)가 된다. 따라서, p(D|w)*p(w)의 w에대한 적분값은 모든 가능한 w에 대해 p(D|w)의 합산값이 되므로 결국 p(D)가 된다.
  • 베이지안이나 빈도주의자나 가능도 함수 p(D|w)를 매우 중요하게 생각한다. 하지만, 두 방식에서 접근법이 근본적으로 다르다. 빈도주의자는 w를 관측 가능한 데이터셋 D의 분포를 고려하여 얻을 수 있는 추정값과 오차의 형태인  고정된 변수로 생각한다. 반면, 베이지안 시점에선 오로지 한 개의 데이터셋 D가 존재하며 파라미터의 불확실성은 w에대한 확률 분포로 표현된다.
  • 최대 가능도 (maximum likelihood)는 빈도주의에서 많이 쓰이는 예측자이다. 여기서, w는 가능도 함수 p(D|w)를 최대화 시키는 값들로 이루어진 집합이다. 이것은 관측된 데이터셋의 확률이 최대화되는 w값을 선택하는데 상응한다. 기계학습에서는 음수 로그 가능도 함수 (negative log of the likelihood function)를 오차함수 (error function)이라고 부른다. 음수 로그 함수 (negative logarithm)는 일정하게 감소하므로 가능도를 최대화 시키는 것은 오차값을 최소화 시키는 것과 동일하다.
  • 부트스트랩 (bootstrap)은 빈도주의적 오차 막대 (error bars)를 결정하는 하나의 방식이다. N개의 데이터 포인트로 이루어진 X={x1,....,xN}의 집합이 있다고 가정하자. 새로운 데이터셋 X_B는 X로부터 중복을 허용하면서 N개의 포인트를 뽑아서 만들 수 있다. 이렇게 하면 X의 몇 개의 데이터 포인트는 X_B에서 복제될 수 있지만 몇 개는 X_B에서 사라질 수 있다. 이 과정을 L번 동안 반복하여서 각 N개의 데이터 포인트로 이루어진 L개의 데이터셋을 데이터셋 x에서 얻을 수 있다. 이러한 과정을 통해 파라미터 예측값들의 통계적인 정확도는 산출될 수 있다.
  • 베이지안은 사전 확률을 잘못 설정할 경우 문제가 생길 수 있다. 이럴 때 빈도주의적 접근이 도움이 될 수 있다. 예를들어 모델들의 비교를 할 때 cross-validation이 사용되는 것이 있다. 이 책은 베이지안을 강조하지만 빈도주의적 접근법도 언급은 할 것임.
  • 챕터 11에서 소개되는 마르코프 체인 몬테카를로와 같은 샘플링 방법의 개발과 컴퓨터 성능의 고도화는 베이지안 기법들의 실용적인 사용을 가능하게 했음. 챕터 10에서는 변동적인 베이즈 (variational bayes)와 기대값 확산 (expectaion propagation)과 같은 매우 효율적이고 결정적인 (deterministic) 추정 방식 (approximation schemes)들을 소개함.
728x90
반응형