본문 바로가기

DeepLearning

[PRML] 1.4. The Curse of Dimensionality (차원의 저주) 1. 개요 다차함수 커브 피팅 예제에서는 우리는 x가 1개의 입력변수로 이루어진 것을 예로 들었다. 하지만, 패턴인식의 실제 상황에서는 많은 입력 변수들로 이루어진 고차원 입력값을 다뤄야 한다. 이것은 몇몇 심각한 문제를 가지고 있으며 패턴인식 기법의 설계에서 영향을 끼치는 주요한 요소이다. 2. 내용 그림 1.19는 기름, 물, 그리고 가스로 이루어진 데이터에서 100개의 데이터 포인트를 뽑은 것이다. 이것들은 3가지의 지질학적인 상태로 이루어져 있다. 그 상태들은 homogenous, annular, 그리고 laminar이다. 그리고 3가지 상태에서 3가지 물질들의 구성비율 역시 다양하다. 각 데이터 포인트는 12개의 차원으로 이루어져 있다. 이중에서 x6와 x7만을 시각화 목적을 위해 사용한다. 어.. 더보기
[PRML] 1.3 Model Selection (모델 선택) 1. 개요 최소 제곱 (least squares)을 활용한 다항함수 커브 피팅 문제 예제를 통해, 가장 좋은 일반화 (the best generalization)을 줄 수 있는 적절한 다항함수의 차수 (optimal order of polynomial)가 있다는 것을 확인했다. 해당 차수는 모델의 파라미터를 조절하고 모델의 복잡도를 조절한다. 정규화된 최소 제곱 (regularized least squares)에서 정규화 상수 lambda 또한 모델의 복잡도를 조절한다. 신경망과 같은 좀 더 복잡한 모델들은 더 많은 파라미터가 모델의 복잡도에 관여할 수 있다. 이러한 상황에서, 모델의 복잡도를 조절하는 파라미터의 값들을 연구자들은 정해야 하며 이는 새로운 데이터에 대한 최상의 예측력을 달성하기 위함이다... 더보기
[PRML] 1.2.6 Bayesian curve fitting (베이지안 곡선 피팅) 1. 개요 1.2.5 챕터에서 사전 확률 p(w|alpha)를 도입했지만 w에 대한 예측에서는 아직 베이지안을 적용하지 않음. 완전한 베이지안 접근법에서는 확률의 곱셈과 덧셈법칙을 모든 가능한 w에 대해 일관되게 적용해야함. 이러한 주변화 (marginalization)은 패턴인식에 대한 베이지안 방법론의 핵심이다. 곡선 피팅 문제에서, 훈련데이터 x와 t가 주어졌을 때 새로운 테스트 포인트 x에서 t라는 값을 예측하는 것이 목적이다. 따라서, p(t|x,x,t)라는 예측분포를 평가해야한다. 여기서는, alpha와 beta가 고정되어 있고 미리 알고 있다고 가정하겠다. 추후에 이들 파라미터가 베이지안을 통해 데이터에서 유추할 수 있는지는 다루겠다. 2. 내용 베이지안 처리는 곱셈과 덧셈 법칙을 적용하여서.. 더보기
[PRML] 1.2.5 Curve fitting re-visited 1. 개요 앞선 내용들에서 다항 커브 피팅 (polynomical curve fitting)이 오차 최소화 (error minimization)으로 표현되는지 확인함. 이제 커브 피팅 예제로 돌아가서 확률적 관점에서 다루고자함. 이를 통해 오차 함수 (error function)과 정규화 (regularization)에 대한 영감을 얻고 완전한 베이지안 방법론 (bayesian technique)에 다가가고자 한다. 2. 내용 커브피팅 문제는 새로운 변수 x에 대해 표적 변수 t를 예측하는 것으로 N개의 입력값 벡터 x로 이루어진 훈련데이터를 통해 하는 것이다. 표전 값에 대한 불분명함 (uncertainty)를 확률 분포를 통해 표현할 수 있다. 이 목적을 위해 주어진 x에 대해 t는 다항함수의 y(x.. 더보기
[PRML] 1.2.4 The Gaussian distribution (가우시안 분포) 1. 개요 챕터 2에서 확률 분포들의 중요한 특징들을 서술하겠지만 여기서는 표준 혹은 가우시안 분포라 불리는 확률 분포를 소개함. 가우시안 분포는 책 전반에 걸쳐서 많이 사용됨. 2. 내용 가우시안 분포는 실수값인 단일 변수 x에 대해 수식 1.46과 같이 정의됨. 이것은 평균값 u (뮤)와 분산 sigma**2으로 조절된다. sigma는 표준 편차 (standard deviation)라고 불림. 분산의 역수(1/sigma**2)는 정밀도 (precision)이라고 불림. 가우시안 분포는 1.47을 만족한다. 즉, 항상 양수라는 것이다. 가우시안 분포를 표준화 (normalized) 하면 수식 1.48과 같이 표현된다. 따라서, 수식 1.46은 유효한 확률 밀도에 필요한 2가지 조건을 만족한다. 가우스 .. 더보기
[PRML] 1.2.3 Bayesian probabilities (베이지안 확률들) 1. 개요 지금까지 확률을 반복적인 이벤트나 무작위 빈도의 관점에서 서술해왔음. 이것을 확률에 대한 전통적인 (classical) 혹은 빈도주의 자(frequentist)적 접근이라고 부름. 이제는 확률이 불확실성의 정량이 되는 일반적인 베이지안 시점에서 바라보고자 함. Now we turn to more general Bayesian view, in which probabilities provide a quantification of uncertainty. 베이지안은 상자와 과일 예제와 같이 수많이 반복 가능한 상황에서 쓰이지 않을 때, 쓰일 수 있다. 예를들어 북극이 이번 세기말에 없어질 확률을 구한다고 할 때, 지구를 관측하는 인공위성으로부터 새로운 정보를 얻고 이를 통해 얼음이 사라지는 속도에 대.. 더보기
[PRML] 1.2.2 Expectations and covariances (기대값과 공분산) 1. 개요 확률과 관련된 가장 중요한 작업 중 하나는 함수의 가중 평균 (weighted averages)을 찾는 것입니다. 2. 내용 어떤 함수 f(x)가 확률분포 p(x)를 따를 때의 평균값은 f(x)의 기대라고 불리며 E|f|로 표기할 수 있습니다. (수식 1.33) 아래 수식과 같이 x의 다른 값들의 상대적인 확률로 평균값이 가중됩니다. 연속적인 변수의 경우 기대값은 상응하는 확률 밀도에 대한 적분값으로 표현될 수 있습니다. (수식 1.34) 어느 경우이든, 어떤 확률분포 혹은 밀도에서 유한한 수로 N개의 관측값을 얻는다면, 이것들의 기대값은 그 값들의 유한한 합으로 근사 (approximated)될 수 있습니다. (수식 1.35) 이것은 챕터 11에서 샘플링 방법들에 대한 내용을 소개할 때 많이.. 더보기
[PRML] 1.2.1 Probability densities (확률 밀도) 1. 개요 확률은 분리되는 (discrete) 사건들 외에도 연속적인 변수 (continuous variable)들에 대해서도 고려할 필요가 있음. 이해를 돕기 위해 상대적으로 비격식적 (informal)으로 설명하겠음. 2. 내용 실수값 변수 x가 간격 (x, x + δx)에 떨어질 확률이 δx → 0에 대해 p(x)δx로 주어진다면, p(x)는 x에 대한 확률 밀도로 불립니다. [잘보면 미분 (differentiation)을 정의할 때와 유사한 것을 알 수 있다.] If the probability of a real-valued variable x falling in the interval (x, x + δx) is given by p(x)δx for δx → 0, then p(x) is called.. 더보기