본문 바로가기

DeepLearning/Pattern recognition and Machine learning

[PRML] 1.5.2 Minimizing the expected loss (기대 오차 최소화하기)

728x90
반응형

1. 개요

 다양한 상황에서 우리의 목적은 잘못된 분류의 숫자를 최소화하는 것보다 더 복잡하다. 의학 진단 문제를 다시 고려해보자. 만일 암환자가 아닌데 암이 있다고 진단된 환자가 있다면, 그 결과는 환자들에게 괴로움을 주면서 추가적인 조사를 요구하게 된다. 반대로 암환자인데 건강하다고 진단한다면, 치료부족으로 빨리 죽게될 수도 있다. 따라서, 2가지의 실수는 굉장한 차이로 이어진다. 이 경우, 비록 첫 번 째 실수에서 비용을 더 발생시키더라도 두 번 째 실수를 줄이는 것이 좀 더 나은 선택이 될 것이다.

 

2. 내용

  • 위의 문제는 손실함수 (loss function) 또는 비용함수 (cost function)이라 불리는 것을 도입하면서 구체화 (formalize)할 수 있다. 이 함수는 가능한 결정이나 행동들에대해 발생한 손실에 대한 단일하고 전체적인 측정방식이다. 이것을 최소화 하는 것이 우리의 목표이다. 한편, 몇몇 저자들은 활용함수 (utility function)이란 용어를 사용하며 이것을 최대화 시키려하는데 이건 앞의 손실함수를 역의 방향으로 두면 되기 때문에 이 책에서는 손실함수를 계속 쓰겠다.
  • 새로운 값 x에 대해 실제 클래스 Ck를 가정해보자. 그리고 우리는 x를 클래스 Cj에 배정하려고 한다. k와 j는 같을 수도 있고 다를 수도 있다. 이를 통해, 우리는 오차 수준을 도입할 수 있게 된다. 이를 Lkj라 하자. 이것은 손실행렬 (loss matrix)의 k와 j 요소에 대한 것으로 볼 수 있다. 예를들어, 우리의 암 예제에서는 그림 1.25와 같이 손실행렬을 나타낼수 있다. 이 손실 행렬에서는 올바른 분류를 했을 때는 손실이 없고 건강한 환자가 암에 걸렸다고 할 경우에는 손실을 1이며 암환자가 건강하다고 할 때는 손실을 1000이 된다.

그림 1.25

  • 최적의 해법은 손실함수를 최소화하는 것이다. 하지만, 손실함수는 우리가 알지 못하는 진짜 클래스 (true class)에 의존한다. 주어진 입력 벡터 x에 대해, 진짜 클래스에 대한 우리의 불확실성은 결합 확률 분포 p(x,Ck)로 표현된다. 그래서, 우리는 해당 분포에 대한 평균으로 표현되는 평균 손실을 최소화하는 것을 추구하면 된다. 해당 분포는 수식 1.80으로 표현된다. 

수식 1.80

  • 각 x는 결정 영역 Rj에 독립적으로 배정된다. 우리의 목적은 수식 1.80이 최소화되게 하는 Rj를 선택하는 것이다. 즉, 각 x에 대해 다음의 수식 a을 최소화 하는 것이다.

수식 a

  • 곱셈 법칙을 통해 p(x,Ck) = p(Ck|x)p(x)를 사용하여 공통 요소인 p(x)를 제거할 수 있다. 따라서, 평균 손실을 최소화하는 결정규칙은 새로운 x를 클래스 j에 배정하는 것이며 이 측정값 (quantity)는 수식 1.81을 최소화하는 것이다.

수식 1.81

  • 우리가 클래스 사후확률 p(Ck|x)를 안다면, 이것은 분명히 하기에는 사소한 것이다. 
728x90
반응형