728x90
반응형
1. 개요
앞선 예제인 회귀 문제로 돌아서 토의를 이어간다. 결정 단계는 입력 x에 대해 값 t에 대한 특정한 예측 함수 y(x)을 선택하는 것이다.
2. 내용
- 위와 같은 방식으로 우리는 손실 L(t,y(x))를 도입할 수 있다. 평균 또는 기대되는 손실은 수식 1.86으로 나타낼 수 있다.
- 회귀 문제에서 가장 흔한 손실함수는 L(t,y(x))={y(x)-t}**2로 주어지는 제곱 손실이다. 이 경우 기대 손실값은 수식 1.87과 같다.
- 우리의 목표는 E[L]을 최소화하는 y(x)를 선택하는 것이다. 우리가 만일 완전히 유연한 함수 y(x)를 가정한다면 이를 공식적으로 변분법 (calculus of variations)을 사용하여 수식 1.88로 나타낼 수 있습니다.
변분법 : 범함수의 최소/최대를 찾는 방법을 의미함. 범함수란 함수들의 집함을 정의역으로 갖는 함수를 의미한다.
- y(x)를 푸는 과정에서 확률의 합과 곱 규칙을 사용하여 우리는 수식 1.89를 얻는데 이것은 x에 대해 조건이 걸린 조건부 평균 t를 의미합니다. 이는 회귀 함수 (regression function)로 알려져 있습니다. [자세한 것은 부록 D를 이해야하함.]
- 이 결과는 그림 1.28에 묘사되어 있음. 이것은 다양한 목표 값들로 이루어진 벡터 t로 확장이 가능하며 이 경우에는 최적의 해는 조건부 평균 y(x) = E_t[t|x]임.
- 이 결과를 약간 다른 방식으로 유도할 수도 있습니다. 이는 회귀 문제의 성질에 대한 통찰을 제공할 것입니다. 조건부 기대값이 최적의 해결책임을 알고 있으므로 우리는 제곱 항을 다음과 같이 확장할 수 있습니다. 여기서는 명칭을 쓰는게 엉키지 않게하기 위해 E_t[t|x] 대신 E[t|x]를 사용합니다.
- 손실함수에 대입하고 t에대해 적분을 진행하면, cross-term이 사라지고 손실함수에 대한 표현을 수식 1.90과 같이 얻게 됩니다.
- 우리가 결정하고 싶은 y(x) 함수는 첫번 째 항에만 들어가게 됩니다. 이 첫 번 째 항은 y(x)가 E[t|x]와 같을 때 최소화가 됩니다. 이것은 우리가 이전에 유도한 결과이며, 최적의 최소 제곱 예측자가 조건부 평균으로 주어진다는 것을 보여줍니다. 두 번째 항은 x에 대한 평균을 낸 t의 분포의 분산입니다. 이는 y(x), 목표 데이터의 고유한 변동성을 나타내며, 노이즈로 간주될 수 있습니다. 이는 독립적이기 때문에 손실 함수의 축소할 수 없는 최소값을 나타냅니다.
- 분류 문제와 마찬가지로, 적절한 확률을 결정할 수 있고 이것을 최적의 결정을 하기 위해 사용할 수 있습니다. 또는, 결정을 직접하는 모델을 만들 수도 있습니다. 복잡도가 낮아지는 순서대로 회귀문제를 풀기위한 3가지 방법은 아래와 같습니다. 이들의 상대적인 이점들은 분류 문제에서 소개한 것과 동일합니다.
- 결합 밀도 p(x,t)를 결정하는 추론 문제를 풉니다. 그리고, 조건부 밀도 p(t|x)를 찾기위해 표준화합니다. 그리고 수식 1.89에 주어진 조건부 평균을 찾기 위해 주변화 (marginalize)를 합니다.
- 조건부 밀도 p(t|x)를 결정하는 추론 문제를 풉니다. 그리고 수식 1.89에 주어진 조건부 평균을 찾기위해 주변화 (marginalize)를 합니다.
- 훈련데이터에서 직접 회귀함수 y(x)를 찾습니다.
- 제곱 손실은 회귀에 대한 유일한 손실 함수의 선택이 아닙니다. 실제로, 제곱 손실이 매우 나쁜 결과로 이어질 수 있는 상황이 있으며 더 정교한 접근 방법을 개발해야 하는 상황도 있습니다. 중요한 예로는 조건부 분포가 다중 모드 (multimodal)인 경우가 있으며, 이는 역문제 (inverse problems)의 해결에서 자주 발생합니다. 여기서는 제곱 손실의 간단한 일반화 중 하나인 민코프스키 손실(Minkowski loss)을 간단히 살펴보겠습니다. 그 기대값은 수식 1.91과 같습니다.
- 여기서 q = 2일 때, 위의 식은 기대값이 제곱 손실로 축소됩니다. 함수 |y − t|**q는 그림 1.29에서 q의 여러 값에 대해 y − t에 대한 그래프로 표시됩니다. E[L_q]의 최소값은 q = 2일 때 조건부 평균으로 주어지며, q = 1일 때 조건부 중앙값, 그리고 q → 0일 때 조건부 모드입니다.
728x90
반응형
'DeepLearning > Pattern recognition and Machine learning' 카테고리의 다른 글
[PRML] 1.6.1 Relative entropy and mutual information (상대 엔트로피와 상호 의존 정보) (0) | 2024.01.23 |
---|---|
[PRML] 1.6. Information theory (정보 이론) (0) | 2024.01.15 |
[PRML] 1.5.4 Inference and decision (추론과 결정) (0) | 2024.01.11 |
[PRML] 1.5.3 The reject option (거부 옵션) (0) | 2024.01.11 |
[PRML] 1.5.2 Minimizing the expected loss (기대 오차 최소화하기) (0) | 2024.01.10 |