본문 바로가기

DeepLearning/Pattern recognition and Machine learning

[PRML] 1.5.4 Inference and decision (추론과 결정) 1. 개요 우리는 분류 문제를 두 단계로 나누어서 살펴봤다. 첫 번째는 추론 단계 (inference stage)로 p(Ck|x)에 대해 모델이 훈련데이터로 학습하는 단계이다. 그 다음은 결정 단계 (decision stage)로 최적의 클래스 배정을 위해 사후확률 (posterior probability)를 사용한다. 이와는 다른 방식으로 두 가지 문제를 동시에 다룰 수 있을 것이며 이는 어떤 함수를 통해 입력 x를 결정 선택들 (decisions)에 바로 지정하는 것이다. (a function that maps inputs x directly into decisions) 이러한 함수를 판별 함수 (discriminant function)이라 한다. 2. 내용 결정 문제들을 해결하기 위해 우리는 3가지.. 더보기
[PRML] 1.5.3 The reject option (거부 옵션) 1. 개요 분류 오차는 최대 사후확률 p(Ck|x)가 1 (unity)보다 매우 작거나, 비슷한 값들을 갖는 p(x,Ck)의 결합 분포인 입력 공간에서 발생한다. 이러한 영역들은 우리가 클래스 멤버쉽에 대해 상대적으로 불확실하게 생각하는 공간이다. 2. 내용 몇가지 상황에서는 해당 공간에 대한 결정을 안하는 것이 적절할 수 있다. 이를 통해 결정이 이루어졌을 때 오류률을 낮출 것을 기대할 수도 있다. 이것이 거부 선택 (reject option)이라 알려져 있다. 예를들어, X-ray 이미지를 통해 환자를 분류할 때 확신할 수 있을 경우에는 자동으로 분류하는 것이 좋지만 애매한 경우에는 인간 전문가가 직접 개입해야 좋을 수 있다. 이것을 하는 방법은 적절한 역치값 (threshold)를 지정하는 것이다... 더보기
[PRML] 1.5.2 Minimizing the expected loss (기대 오차 최소화하기) 1. 개요 다양한 상황에서 우리의 목적은 잘못된 분류의 숫자를 최소화하는 것보다 더 복잡하다. 의학 진단 문제를 다시 고려해보자. 만일 암환자가 아닌데 암이 있다고 진단된 환자가 있다면, 그 결과는 환자들에게 괴로움을 주면서 추가적인 조사를 요구하게 된다. 반대로 암환자인데 건강하다고 진단한다면, 치료부족으로 빨리 죽게될 수도 있다. 따라서, 2가지의 실수는 굉장한 차이로 이어진다. 이 경우, 비록 첫 번 째 실수에서 비용을 더 발생시키더라도 두 번 째 실수를 줄이는 것이 좀 더 나은 선택이 될 것이다. 2. 내용 위의 문제는 손실함수 (loss function) 또는 비용함수 (cost function)이라 불리는 것을 도입하면서 구체화 (formalize)할 수 있다. 이 함수는 가능한 결정이나 행동.. 더보기
[PRML] 1.5.1 Minimizing the misclassification rate (잘못된 분류율 최소화하기) 1. 개요 우리의 목적이 간단히 잘못된 분류를 최소화 하는 것이라고 가정해봅시다. 이를 위해, 우리는 x에 대해 어떤 클래스로 지정할 때 규칙이 필요합니다. 이 규칙은 결정 영역 (decision regions)이라 불리는 입력 공간 Rk를 각 클래스 별로 나눌 것입니다. 이를 통해, Rk내의 모든 데이터 포인트들은 클래스 Ck에 속하게 됩니다. 결정 영역 사이의 경계선들은 결정 경계 (decision boundaries) 또는 결정면 (decision surfaces)라 불립니다. 알아둘 점은 결정영역은 꼭 인접할 필요는 없습니다. 이것들은 비결합 영역 (disjoint regions)일 수도 있습니다. 결정 경계와 결정 영역에 대해서는 다음 챕터들에서도 계속 다루겠습니다. 2. 내용 최적의 결정규칙을.. 더보기
[PRML] 1.5. Decision Theory (결정 이론) 1. 개요 섹션 1.2에서 불확실성을 정량하고 조절하는 일정한 수학적 프레임워크를 확률이론이 어떻게 제공하는지 다루었다. 여기서는, 확률이론과 결정이론이 패턴인식에서 마주치는 불확실성과 관련된 상황들에서 어떻게 적절한 결정법을 제공하는지 다루겠다. 2. 내용 입력 벡터 x와 목표 벡터 t 에 대해 새로운 x가 죽어지면 t를 예측하는게 목적인 상황을 가정해보자. 회귀 문제라면 t는 연속적인 값들일 것이고 분류문제라면 클래스 라벨로 이루어질 것이다. 결합 확률 분포 p(x,t)는 이러한 값들에 관련된 불확실성의 완전한 요약본을 제공한다. p(x,t)를 훈련데이터에서 결정하는 것은 유추 (inference)의 예이며 이것은 이 책의 대부분의 주제에서 다루는 어려운 문제이다. x-ray 이미지 분석에서 환자가 .. 더보기
[PRML] 1.4. The Curse of Dimensionality (차원의 저주) 1. 개요 다차함수 커브 피팅 예제에서는 우리는 x가 1개의 입력변수로 이루어진 것을 예로 들었다. 하지만, 패턴인식의 실제 상황에서는 많은 입력 변수들로 이루어진 고차원 입력값을 다뤄야 한다. 이것은 몇몇 심각한 문제를 가지고 있으며 패턴인식 기법의 설계에서 영향을 끼치는 주요한 요소이다. 2. 내용 그림 1.19는 기름, 물, 그리고 가스로 이루어진 데이터에서 100개의 데이터 포인트를 뽑은 것이다. 이것들은 3가지의 지질학적인 상태로 이루어져 있다. 그 상태들은 homogenous, annular, 그리고 laminar이다. 그리고 3가지 상태에서 3가지 물질들의 구성비율 역시 다양하다. 각 데이터 포인트는 12개의 차원으로 이루어져 있다. 이중에서 x6와 x7만을 시각화 목적을 위해 사용한다. 어.. 더보기
[PRML] 1.3 Model Selection (모델 선택) 1. 개요 최소 제곱 (least squares)을 활용한 다항함수 커브 피팅 문제 예제를 통해, 가장 좋은 일반화 (the best generalization)을 줄 수 있는 적절한 다항함수의 차수 (optimal order of polynomial)가 있다는 것을 확인했다. 해당 차수는 모델의 파라미터를 조절하고 모델의 복잡도를 조절한다. 정규화된 최소 제곱 (regularized least squares)에서 정규화 상수 lambda 또한 모델의 복잡도를 조절한다. 신경망과 같은 좀 더 복잡한 모델들은 더 많은 파라미터가 모델의 복잡도에 관여할 수 있다. 이러한 상황에서, 모델의 복잡도를 조절하는 파라미터의 값들을 연구자들은 정해야 하며 이는 새로운 데이터에 대한 최상의 예측력을 달성하기 위함이다... 더보기
[PRML] 1.2.6 Bayesian curve fitting (베이지안 곡선 피팅) 1. 개요 1.2.5 챕터에서 사전 확률 p(w|alpha)를 도입했지만 w에 대한 예측에서는 아직 베이지안을 적용하지 않음. 완전한 베이지안 접근법에서는 확률의 곱셈과 덧셈법칙을 모든 가능한 w에 대해 일관되게 적용해야함. 이러한 주변화 (marginalization)은 패턴인식에 대한 베이지안 방법론의 핵심이다. 곡선 피팅 문제에서, 훈련데이터 x와 t가 주어졌을 때 새로운 테스트 포인트 x에서 t라는 값을 예측하는 것이 목적이다. 따라서, p(t|x,x,t)라는 예측분포를 평가해야한다. 여기서는, alpha와 beta가 고정되어 있고 미리 알고 있다고 가정하겠다. 추후에 이들 파라미터가 베이지안을 통해 데이터에서 유추할 수 있는지는 다루겠다. 2. 내용 베이지안 처리는 곱셈과 덧셈 법칙을 적용하여서.. 더보기