본문 바로가기

DeepLearning/Pattern recognition and Machine learning

[PRML] 1.2.1 Probability densities (확률 밀도)

728x90
반응형

1. 개요

  • 확률은 분리되는 (discrete) 사건들 외에도 연속적인 변수 (continuous variable)들에 대해서도 고려할 필요가 있음.
  • 이해를 돕기 위해 상대적으로 비격식적 (informal)으로 설명하겠음.

2. 내용

  • 실수값 변수 x가 간격 (x, x + δx)에 떨어질 확률이 δx → 0에 대해 p(x)δx로 주어진다면, p(x)는 x에 대한 확률 밀도로 불립니다. [잘보면 미분 (differentiation)을 정의할 때와 유사한 것을 알 수 있다.]
    If the probability of a real-valued variable x falling in the interval (x, x + δx) is given by p(x)δx for δx → 0, then
    p(x) is called the probability density over x.

그림 1.12 확률 밀도를 표현한 그림. 확률밀도는 누적 분포 P(x)의 미분값으로 표기될 수 있다.

  • x가 (a,b)안에 속할 확률은 아래와 같이 수식 1.24로 표기됨.
    여기서 확률은 (0,1)의 간격에서 존재해야하며 x는 실수야함.

수식 1.24

  • 변수가 비선형적 (nonlinear)으로 변화할 때, 확률분포는 자코비안 요소 (jacobian factor)로 인해 간단한 함수와는 다르게 변화하게 됨. 예를들어 x=g(y)로 변수 x가 변화할 때 f(x)는 f(y)_het = f(g(y))로 변하게됨 (수식 m).

수식 m

  • 이제 새로운 변수 y에 대해 밀도 p_y(y)에 상응하는 밀도 p_x(x)를 생각해봅시다. 여기서 접미사 (suffices) _x와 _y는 p_x(x)와 p_y(y)가 다른 밀도임을 의미합니다. δx가 아주 작은 값일 때, (x, x + δx) 영역에 떨어지는 관측값들은 수식 m1을 만족할 경우 (y, y + δy) 영역으로 변환이 될겁니다. 

수식 m1

  • 수식 m1을 만족한다면 p_y(y)는 수식 1.27과 동일하게 됩니다. 여기서 dx/dy에 절대값 표시인 | |가 붙는 이유는 기울기 값이 음수가 나오게 되면 양수 영역에서 존재하는 p_y(y)가 음수가 되기 때문에 넣은 것입니다.
    이 특성의 한 가지 결과는 확률 밀도의 최댓값 개념이 변수의 선택에 따라 달라진다는 것입니다.

수식 1.27

  • 변수 x가 (-∞, z) 간격에 속할 확률은 아래의 누적 분포 함수 (cumulative distribution function)에 의해 제공되며, 이 함수는 그림 1.12에서 보여진 것처럼 P'(x) = p(x)를 만족합니다.

누적 분포 함수 (1.28)

  • vector X가 [x1, ...., xD]로 연속적인 변수들로 이루어져 있다면, 동시확률 p(x) = p(x1, ....., xd)로 정의할 수 있습니다. 이때, x를 포함하는 매우 작은 영역 (infinitesimal volume) δx에대한 확률은 p(x) δx 로 주어집니다. 이 다변 확률 밀도 (multivariate probability density)는 수식 1.29와 수식 1.30을 만족해야합니다. 여기서 인테그랄 (integral)은 x의 모든 공간에 대해 적용됩니다.
    여기서, 만일 x가 이산 변수 (discrete variable)라면 p(x)는 확률 질량 함수 (probability mass function)이라 불립니다. 왜냐하면, 이것은 x에 대한 확률 덩어리들 (probability masses)의 집합이라고 말할 수 있기 때문입니다.

수식 1.29와 수식 1.30

728x90
반응형