본문 바로가기

DeepLearning

[PRML] 1.6.1 Relative entropy and mutual information (상대 엔트로피와 상호 의존 정보) 1. 개요 앞서서 정보이론의 중요 개념들을 살펴봤고 이제는 이를 패턴인식에 연결시키고자 합니다. 2. 내용 어떤 알려지지 않은 분포 p(x)가 있고, 우리는 이를 근사화한 분포 q(x)를 사용하여 모델링했다고 가정해 봅시다. 만일 우리가 q(x)를 수신자에게 x값을 전달하는 목적으로 코딩 전략을 짜는데 사용한다면, p(x) 대신 q(x)를 사용하므로서 x를 구체화하기위해 필요한 평균적인 추가 정보량 (in nats)은 수식 1.113과 같습니다. 이를 분포 p(x)와 q(x) 간의 상대 엔트로피 (relative entropy) 혹은 Kullback-Leibler divergence, 또는 KL divergence라고 합니다. 여기서 알아둘 점은, KL(p||q)와 KL(q||p)는 대칭적으로 항상 같은.. 더보기
[PRML] 1.6. Information theory (정보 이론) 1. 개요 챕터 1에서 다양한 확률 이론과 결정 이론들의 개념들을 다뤄옴. 이번 챕터에서는 정보 이론 분야에서 몇 가지 추가적인 개념들을 도입하면서 마치겠음. 2. 내용 이산 무작위 변수 (discrete random variable) x에 대해 생각해봅시다. 그리고, 이 변수에 어떤 특정한 값을 확인했을 때 얼만큼 정보를 얻을 수 있을지 물어봅시다. 정보의 양 (amount of information)이란 x값을 배울 때의 놀라움의 정도 (degree of surprise)로 볼 수 있을 것입니다. 일어날 가능성이 매우 적은 사건 (a highly improbable event)가 일어난다면, 흔하게 일어나는 사건에 비해 더 많은 정보를 얻을 것입니다. 따라서, 확률 분포 p(x)에 정보량 (infor.. 더보기
[PRML] 1.5.5 Loss functions for regression (회귀에 대한 손실함수들) 1. 개요 앞선 예제인 회귀 문제로 돌아서 토의를 이어간다. 결정 단계는 입력 x에 대해 값 t에 대한 특정한 예측 함수 y(x)을 선택하는 것이다. 2. 내용 위와 같은 방식으로 우리는 손실 L(t,y(x))를 도입할 수 있다. 평균 또는 기대되는 손실은 수식 1.86으로 나타낼 수 있다. 회귀 문제에서 가장 흔한 손실함수는 L(t,y(x))={y(x)-t}**2로 주어지는 제곱 손실이다. 이 경우 기대 손실값은 수식 1.87과 같다. 우리의 목표는 E[L]을 최소화하는 y(x)를 선택하는 것이다. 우리가 만일 완전히 유연한 함수 y(x)를 가정한다면 이를 공식적으로 변분법 (calculus of variations)을 사용하여 수식 1.88로 나타낼 수 있습니다. 변분법 : 범함수의 최소/최대를 찾는.. 더보기
[PRML] 1.5.4 Inference and decision (추론과 결정) 1. 개요 우리는 분류 문제를 두 단계로 나누어서 살펴봤다. 첫 번째는 추론 단계 (inference stage)로 p(Ck|x)에 대해 모델이 훈련데이터로 학습하는 단계이다. 그 다음은 결정 단계 (decision stage)로 최적의 클래스 배정을 위해 사후확률 (posterior probability)를 사용한다. 이와는 다른 방식으로 두 가지 문제를 동시에 다룰 수 있을 것이며 이는 어떤 함수를 통해 입력 x를 결정 선택들 (decisions)에 바로 지정하는 것이다. (a function that maps inputs x directly into decisions) 이러한 함수를 판별 함수 (discriminant function)이라 한다. 2. 내용 결정 문제들을 해결하기 위해 우리는 3가지.. 더보기
[PRML] 1.5.3 The reject option (거부 옵션) 1. 개요 분류 오차는 최대 사후확률 p(Ck|x)가 1 (unity)보다 매우 작거나, 비슷한 값들을 갖는 p(x,Ck)의 결합 분포인 입력 공간에서 발생한다. 이러한 영역들은 우리가 클래스 멤버쉽에 대해 상대적으로 불확실하게 생각하는 공간이다. 2. 내용 몇가지 상황에서는 해당 공간에 대한 결정을 안하는 것이 적절할 수 있다. 이를 통해 결정이 이루어졌을 때 오류률을 낮출 것을 기대할 수도 있다. 이것이 거부 선택 (reject option)이라 알려져 있다. 예를들어, X-ray 이미지를 통해 환자를 분류할 때 확신할 수 있을 경우에는 자동으로 분류하는 것이 좋지만 애매한 경우에는 인간 전문가가 직접 개입해야 좋을 수 있다. 이것을 하는 방법은 적절한 역치값 (threshold)를 지정하는 것이다... 더보기
[PRML] 1.5.2 Minimizing the expected loss (기대 오차 최소화하기) 1. 개요 다양한 상황에서 우리의 목적은 잘못된 분류의 숫자를 최소화하는 것보다 더 복잡하다. 의학 진단 문제를 다시 고려해보자. 만일 암환자가 아닌데 암이 있다고 진단된 환자가 있다면, 그 결과는 환자들에게 괴로움을 주면서 추가적인 조사를 요구하게 된다. 반대로 암환자인데 건강하다고 진단한다면, 치료부족으로 빨리 죽게될 수도 있다. 따라서, 2가지의 실수는 굉장한 차이로 이어진다. 이 경우, 비록 첫 번 째 실수에서 비용을 더 발생시키더라도 두 번 째 실수를 줄이는 것이 좀 더 나은 선택이 될 것이다. 2. 내용 위의 문제는 손실함수 (loss function) 또는 비용함수 (cost function)이라 불리는 것을 도입하면서 구체화 (formalize)할 수 있다. 이 함수는 가능한 결정이나 행동.. 더보기
[PRML] 1.5.1 Minimizing the misclassification rate (잘못된 분류율 최소화하기) 1. 개요 우리의 목적이 간단히 잘못된 분류를 최소화 하는 것이라고 가정해봅시다. 이를 위해, 우리는 x에 대해 어떤 클래스로 지정할 때 규칙이 필요합니다. 이 규칙은 결정 영역 (decision regions)이라 불리는 입력 공간 Rk를 각 클래스 별로 나눌 것입니다. 이를 통해, Rk내의 모든 데이터 포인트들은 클래스 Ck에 속하게 됩니다. 결정 영역 사이의 경계선들은 결정 경계 (decision boundaries) 또는 결정면 (decision surfaces)라 불립니다. 알아둘 점은 결정영역은 꼭 인접할 필요는 없습니다. 이것들은 비결합 영역 (disjoint regions)일 수도 있습니다. 결정 경계와 결정 영역에 대해서는 다음 챕터들에서도 계속 다루겠습니다. 2. 내용 최적의 결정규칙을.. 더보기
[PRML] 1.5. Decision Theory (결정 이론) 1. 개요 섹션 1.2에서 불확실성을 정량하고 조절하는 일정한 수학적 프레임워크를 확률이론이 어떻게 제공하는지 다루었다. 여기서는, 확률이론과 결정이론이 패턴인식에서 마주치는 불확실성과 관련된 상황들에서 어떻게 적절한 결정법을 제공하는지 다루겠다. 2. 내용 입력 벡터 x와 목표 벡터 t 에 대해 새로운 x가 죽어지면 t를 예측하는게 목적인 상황을 가정해보자. 회귀 문제라면 t는 연속적인 값들일 것이고 분류문제라면 클래스 라벨로 이루어질 것이다. 결합 확률 분포 p(x,t)는 이러한 값들에 관련된 불확실성의 완전한 요약본을 제공한다. p(x,t)를 훈련데이터에서 결정하는 것은 유추 (inference)의 예이며 이것은 이 책의 대부분의 주제에서 다루는 어려운 문제이다. x-ray 이미지 분석에서 환자가 .. 더보기