본문 바로가기

DeepLearning/Pattern recognition and Machine learning

[PRML] 2.2.1 The Dirichlet distribution (디리클레 분포) 1. 개요 앞서봤던 수식 2.34의 다항분포의 파라미터 {u_k}에대한 사전확률 중 하나인 디리클레 분포 (Dirichlet distribution)를 살펴보겠다. 2. 내용 다항분포의 형태를 탐구하면 결합 사전 분포 (conjugate piror)는 수식 2.37로 주어지는 것을 볼 수 있다. 여기서 0 더보기
[PRML] 2.2. Multinomial variables (다변량 변수) 1. 개요 이진 변수 (binary variables)는 2가지의 가능한 값들 중 하나를 정량화하는 것에 쓰일 수 있다. 하지만, 우리는 자주 K개의 상호적으로 겹치지 않는 상태들에 대해 마주할 수 있다. 다양한 방식으로 이를 서술할 수 있지만 편의상 1-of-K 개념 (1-of-K scheme)으로 살펴보려한다. 2. 내용 이 개념에서는 변수는 K차원의 벡터 x에 의해 표현되며 벡터 x의 원소 x_k는 1이고 나머지 원소들은 0이다. 예를들어 K=6개의 상태로 표현하면서 x_3=1이라면 벡터 x는 수식 2.25와 같이 표현된다. 여기서 벡터 x의 원소들의 합은 1을 만족한다. 만일 우리가 u_k라는 파라미터로 x_k=1의 확률로 나타내면 벡터 x의 분포는 수식 2.26과 같이 나타난다. 여기서 u_k의.. 더보기
[PRML] 2.1.1 The beta distribution (베타 분포) 1. 개요 수식 2.8에서 봤듯이 베르누이 분포와 나아가 이항 분포에서 u에대한 최대 가능도 설정은 데이터에서 x=1이라는 값을 갖는 관측값의 비율이다. 이것은 이미 말했듯이 과적합 문제를 작은 데이터셋에서 발생시킬 수 있다. 이 문제에 대해 베이지안 해결법을 적용하기 위해서는 우리는 u에대한 사전확률 p(u)를 도입해야 한다. 여기서 우리는 간단하고 유용한 분석적인 특징을 갖는 사전확률의 한 가지 형태를 고려할 것이다. 2. 내용 가능도 함수는 [u**x][(1-u)**(1-x)]의 형태의 원소들의 곱셈으로 이루어진다는 것을 알고 있다. 만일 우리가 사전확률이 u와 (1-u)의 승수 (powers of u and 1-u)에 비례하는 사전확률을 선택한다면, 사전확률과 가능도 함수에 비례하는 사후 확률 분.. 더보기
[PRML] 2.1. Binary variables (이진 변수들) 1. 개요 먼저, 단일 이진 무작위 변수 (single binary random variable) x ∈ {0,1}에 대해 다루면서 시작하겠습니다. 예를들어 x는 동전 던지기로 설명할 수 있습니다. x=1은 앞 면 (heads) x=0은 뒷면 (tails)로 기술하는 것이지요. 2. 내용 동전이 손상되어서 앞 면이 떨어질 확률이 뒷 면이 떨어질 확률과 다르다고 상상해봅시다. 그렇다면 x=1의 확률은 파라미터 u에 대해 수식 2.1과 같이 표기됩니다. 여기서 0 더보기
[PRML] 2. Probability distributions (확률 분포들) 1. 개요 챕터 1에서 우리는 확률 이론들이 패턴인식 문제들에서 어떻게 중요한 역할을 하는지 다뤘습니다. 이제 몇 가지 특이한 확률 분포들에 대해 탐험하고 그것들의 특징을 다룰 것입니다. 이러한 분포들은 보다 복잡한 모델을 다루기 위한 기초로서 이 책 전체를 걸쳐 많이 사용하게 될 것입니다. 2. 내용 이 챕터에서 다뤄지는 분포의 역할은 유한한 원소로 이루어진 집합 x들에대한 무작위 변수 x의 확률분포 p(x)를 모델링하는 것입니다. 이것이 밀도 예측 (density estimation)이라는 문제라고 합니다. 챕터에서 이에 대한 논의를 위해 샘플들은 i.i.d (independent and identically distributed)라고 가정하겠습니다. 여기서 주의할점은, 밀도 예측 문제는 근본적으로 .. 더보기
[PRML] 1.6.1 Relative entropy and mutual information (상대 엔트로피와 상호 의존 정보) 1. 개요 앞서서 정보이론의 중요 개념들을 살펴봤고 이제는 이를 패턴인식에 연결시키고자 합니다. 2. 내용 어떤 알려지지 않은 분포 p(x)가 있고, 우리는 이를 근사화한 분포 q(x)를 사용하여 모델링했다고 가정해 봅시다. 만일 우리가 q(x)를 수신자에게 x값을 전달하는 목적으로 코딩 전략을 짜는데 사용한다면, p(x) 대신 q(x)를 사용하므로서 x를 구체화하기위해 필요한 평균적인 추가 정보량 (in nats)은 수식 1.113과 같습니다. 이를 분포 p(x)와 q(x) 간의 상대 엔트로피 (relative entropy) 혹은 Kullback-Leibler divergence, 또는 KL divergence라고 합니다. 여기서 알아둘 점은, KL(p||q)와 KL(q||p)는 대칭적으로 항상 같은.. 더보기
[PRML] 1.6. Information theory (정보 이론) 1. 개요 챕터 1에서 다양한 확률 이론과 결정 이론들의 개념들을 다뤄옴. 이번 챕터에서는 정보 이론 분야에서 몇 가지 추가적인 개념들을 도입하면서 마치겠음. 2. 내용 이산 무작위 변수 (discrete random variable) x에 대해 생각해봅시다. 그리고, 이 변수에 어떤 특정한 값을 확인했을 때 얼만큼 정보를 얻을 수 있을지 물어봅시다. 정보의 양 (amount of information)이란 x값을 배울 때의 놀라움의 정도 (degree of surprise)로 볼 수 있을 것입니다. 일어날 가능성이 매우 적은 사건 (a highly improbable event)가 일어난다면, 흔하게 일어나는 사건에 비해 더 많은 정보를 얻을 것입니다. 따라서, 확률 분포 p(x)에 정보량 (infor.. 더보기
[PRML] 1.5.5 Loss functions for regression (회귀에 대한 손실함수들) 1. 개요 앞선 예제인 회귀 문제로 돌아서 토의를 이어간다. 결정 단계는 입력 x에 대해 값 t에 대한 특정한 예측 함수 y(x)을 선택하는 것이다. 2. 내용 위와 같은 방식으로 우리는 손실 L(t,y(x))를 도입할 수 있다. 평균 또는 기대되는 손실은 수식 1.86으로 나타낼 수 있다. 회귀 문제에서 가장 흔한 손실함수는 L(t,y(x))={y(x)-t}**2로 주어지는 제곱 손실이다. 이 경우 기대 손실값은 수식 1.87과 같다. 우리의 목표는 E[L]을 최소화하는 y(x)를 선택하는 것이다. 우리가 만일 완전히 유연한 함수 y(x)를 가정한다면 이를 공식적으로 변분법 (calculus of variations)을 사용하여 수식 1.88로 나타낼 수 있습니다. 변분법 : 범함수의 최소/최대를 찾는.. 더보기