본문 바로가기

DeepLearning/Pattern recognition and Machine learning

[PRML] 1.5.5 Loss functions for regression (회귀에 대한 손실함수들)

728x90
반응형

1. 개요

 앞선 예제인 회귀 문제로 돌아서 토의를 이어간다. 결정 단계는 입력 x에 대해 값 t에 대한 특정한 예측 함수 y(x)을 선택하는 것이다.

 

2. 내용

  • 위와 같은 방식으로 우리는 손실 L(t,y(x))를 도입할 수 있다. 평균 또는 기대되는 손실은 수식 1.86으로 나타낼 수 있다.

수식 1.86

  • 회귀 문제에서 가장 흔한 손실함수는 L(t,y(x))={y(x)-t}**2로 주어지는 제곱 손실이다. 이 경우 기대 손실값은 수식 1.87과 같다.

수식 1.87

  • 우리의 목표는 E[L]을 최소화하는 y(x)를 선택하는 것이다. 우리가 만일 완전히 유연한 함수 y(x)를 가정한다면 이를 공식적으로 변분법 (calculus of variations)을 사용하여 수식 1.88로 나타낼 수 있습니다.
    변분법 : 범함수의 최소/최대를 찾는 방법을 의미함. 범함수란 함수들의 집함을 정의역으로 갖는 함수를 의미한다.

수식 1.88

  • y(x)를 푸는 과정에서 확률의 합과 곱 규칙을 사용하여 우리는 수식 1.89를 얻는데 이것은 x에 대해 조건이 걸린 조건부 평균 t를 의미합니다. 이는 회귀 함수 (regression function)로 알려져 있습니다. [자세한 것은 부록 D를 이해야하함.]

수식 1.89

  • 이 결과는 그림 1.28에 묘사되어 있음. 이것은 다양한 목표 값들로 이루어진 벡터 t로 확장이 가능하며 이 경우에는 최적의 해는 조건부 평균 y(x) = E_t[t|x]임.

  • 이 결과를 약간 다른 방식으로 유도할 수도 있습니다. 이는 회귀 문제의 성질에 대한 통찰을 제공할 것입니다. 조건부 기대값이 최적의 해결책임을 알고 있으므로 우리는 제곱 항을 다음과 같이 확장할 수 있습니다. 여기서는 명칭을 쓰는게 엉키지 않게하기 위해 E_t[t|x] 대신 E[t|x]를 사용합니다.

수식-b

  • 손실함수에 대입하고 t에대해 적분을 진행하면, cross-term이 사라지고 손실함수에 대한 표현을 수식 1.90과 같이 얻게 됩니다.

수식 1.90

  • 우리가 결정하고 싶은 y(x) 함수는 첫번 째 항에만 들어가게 됩니다. 이 첫 번 째 항은 y(x)가 E[t|x]와 같을 때 최소화가 됩니다. 이것은 우리가 이전에 유도한 결과이며, 최적의 최소 제곱 예측자가 조건부 평균으로 주어진다는 것을 보여줍니다. 두 번째 항은 x에 대한 평균을 낸 t의 분포의 분산입니다. 이는 y(x), 목표 데이터의 고유한 변동성을 나타내며, 노이즈로 간주될 수 있습니다. 이는 독립적이기 때문에 손실 함수의 축소할 수 없는 최소값을 나타냅니다.
  • 분류 문제와 마찬가지로, 적절한 확률을 결정할 수 있고 이것을 최적의 결정을 하기 위해 사용할 수 있습니다. 또는, 결정을 직접하는 모델을 만들 수도 있습니다. 복잡도가 낮아지는 순서대로 회귀문제를 풀기위한 3가지 방법은 아래와 같습니다. 이들의 상대적인 이점들은 분류 문제에서 소개한 것과 동일합니다.
    1. 결합 밀도 p(x,t)를 결정하는 추론 문제를 풉니다. 그리고, 조건부 밀도 p(t|x)를 찾기위해 표준화합니다. 그리고 수식 1.89에 주어진 조건부 평균을 찾기 위해 주변화 (marginalize)를 합니다.
    2. 조건부 밀도 p(t|x)를 결정하는 추론 문제를 풉니다. 그리고 수식 1.89에 주어진 조건부 평균을 찾기위해 주변화 (marginalize)를 합니다.
    3. 훈련데이터에서 직접 회귀함수 y(x)를 찾습니다.
  • 제곱 손실은 회귀에 대한 유일한 손실 함수의 선택이 아닙니다. 실제로, 제곱 손실이 매우 나쁜 결과로 이어질 수 있는 상황이 있으며 더 정교한 접근 방법을 개발해야 하는 상황도 있습니다. 중요한 예로는 조건부 분포가 다중 모드 (multimodal)인 경우가 있으며, 이는 역문제 (inverse problems)의 해결에서 자주 발생합니다. 여기서는 제곱 손실의 간단한 일반화 중 하나인 민코프스키 손실(Minkowski loss)을 간단히 살펴보겠습니다. 그 기대값은 수식 1.91과 같습니다.

수식 1.91

  • 여기서 q = 2일 때, 위의 식은 기대값이 제곱 손실로 축소됩니다. 함수 |y − t|**q는 그림 1.29에서 q의 여러 값에 대해 y − t에 대한 그래프로 표시됩니다. E[L_q]의 최소값은 q = 2일 때 조건부 평균으로 주어지며, q = 1일 때 조건부 중앙값, 그리고 q → 0일 때 조건부 모드입니다.
728x90
반응형