본문 바로가기

DeepLearning/Pattern recognition and Machine learning

[PRML] 1.2.5 Curve fitting re-visited 1. 개요 앞선 내용들에서 다항 커브 피팅 (polynomical curve fitting)이 오차 최소화 (error minimization)으로 표현되는지 확인함. 이제 커브 피팅 예제로 돌아가서 확률적 관점에서 다루고자함. 이를 통해 오차 함수 (error function)과 정규화 (regularization)에 대한 영감을 얻고 완전한 베이지안 방법론 (bayesian technique)에 다가가고자 한다. 2. 내용 커브피팅 문제는 새로운 변수 x에 대해 표적 변수 t를 예측하는 것으로 N개의 입력값 벡터 x로 이루어진 훈련데이터를 통해 하는 것이다. 표전 값에 대한 불분명함 (uncertainty)를 확률 분포를 통해 표현할 수 있다. 이 목적을 위해 주어진 x에 대해 t는 다항함수의 y(x.. 더보기
[PRML] 1.2.4 The Gaussian distribution (가우시안 분포) 1. 개요 챕터 2에서 확률 분포들의 중요한 특징들을 서술하겠지만 여기서는 표준 혹은 가우시안 분포라 불리는 확률 분포를 소개함. 가우시안 분포는 책 전반에 걸쳐서 많이 사용됨. 2. 내용 가우시안 분포는 실수값인 단일 변수 x에 대해 수식 1.46과 같이 정의됨. 이것은 평균값 u (뮤)와 분산 sigma**2으로 조절된다. sigma는 표준 편차 (standard deviation)라고 불림. 분산의 역수(1/sigma**2)는 정밀도 (precision)이라고 불림. 가우시안 분포는 1.47을 만족한다. 즉, 항상 양수라는 것이다. 가우시안 분포를 표준화 (normalized) 하면 수식 1.48과 같이 표현된다. 따라서, 수식 1.46은 유효한 확률 밀도에 필요한 2가지 조건을 만족한다. 가우스 .. 더보기
[PRML] 1.2.3 Bayesian probabilities (베이지안 확률들) 1. 개요 지금까지 확률을 반복적인 이벤트나 무작위 빈도의 관점에서 서술해왔음. 이것을 확률에 대한 전통적인 (classical) 혹은 빈도주의 자(frequentist)적 접근이라고 부름. 이제는 확률이 불확실성의 정량이 되는 일반적인 베이지안 시점에서 바라보고자 함. Now we turn to more general Bayesian view, in which probabilities provide a quantification of uncertainty. 베이지안은 상자와 과일 예제와 같이 수많이 반복 가능한 상황에서 쓰이지 않을 때, 쓰일 수 있다. 예를들어 북극이 이번 세기말에 없어질 확률을 구한다고 할 때, 지구를 관측하는 인공위성으로부터 새로운 정보를 얻고 이를 통해 얼음이 사라지는 속도에 대.. 더보기
[PRML] 1.2.2 Expectations and covariances (기대값과 공분산) 1. 개요 확률과 관련된 가장 중요한 작업 중 하나는 함수의 가중 평균 (weighted averages)을 찾는 것입니다. 2. 내용 어떤 함수 f(x)가 확률분포 p(x)를 따를 때의 평균값은 f(x)의 기대라고 불리며 E|f|로 표기할 수 있습니다. (수식 1.33) 아래 수식과 같이 x의 다른 값들의 상대적인 확률로 평균값이 가중됩니다. 연속적인 변수의 경우 기대값은 상응하는 확률 밀도에 대한 적분값으로 표현될 수 있습니다. (수식 1.34) 어느 경우이든, 어떤 확률분포 혹은 밀도에서 유한한 수로 N개의 관측값을 얻는다면, 이것들의 기대값은 그 값들의 유한한 합으로 근사 (approximated)될 수 있습니다. (수식 1.35) 이것은 챕터 11에서 샘플링 방법들에 대한 내용을 소개할 때 많이.. 더보기
[PRML] 1.2.1 Probability densities (확률 밀도) 1. 개요 확률은 분리되는 (discrete) 사건들 외에도 연속적인 변수 (continuous variable)들에 대해서도 고려할 필요가 있음. 이해를 돕기 위해 상대적으로 비격식적 (informal)으로 설명하겠음. 2. 내용 실수값 변수 x가 간격 (x, x + δx)에 떨어질 확률이 δx → 0에 대해 p(x)δx로 주어진다면, p(x)는 x에 대한 확률 밀도로 불립니다. [잘보면 미분 (differentiation)을 정의할 때와 유사한 것을 알 수 있다.] If the probability of a real-valued variable x falling in the interval (x, x + δx) is given by p(x)δx for δx → 0, then p(x) is called.. 더보기
[PRML] 1.2 Probability theory (확률 이론) 1. 개요 패턴 인식의 분야에서 중요한 개념 중 하나는 불확실성 (uncertainty)이다. 이것은 노이즈나 유한한 데이터 크기 등 다양한 원인으로 생길 수 있다. 확률 이론은 불확실성에 대한 측정 (quantification)과 조절 (manipulation)을 위한 일관된 뼈대를 제공한다. 비록 불완전하거나 애매할 수 있지만, 이것이 결정이론 (decision theory, 챕터 1.5)와 결합되면 활용가능한 모든 주어진 정보에 대해 적절한 예측을 가능하게 해준다. 2. 내용 예시로 빨강 상자에는 사과 2개와 오렌지 6개가 있고 파랑 상자에는 사과 3개와 오렌지 1개가 있다. 여기서 무작위로 박스를 선택한 후, 무작위로 과일을 고른 후 다시 해당 상자에 돌려 넣는 과정을 수 많이 반복해보자. 이랬을.. 더보기
[PRML] 1.1 Example: Polynomial Curve Fitting 1. 목적 간단한 회귀 문제 (regression problem)을 통해 몇 가지 중요한 개념들을 이해하도록 한다. 2. 내용 sin(2πx) 함수에 랜덤 노이즈를 추가하여 예시 데이터를 생성함. x와 위의 함수에 집어넣을 때 나오는 값은 t로 하고 길이는 N의 행렬을 만듬. 이 때 x는 0부터 1까지 uniform distribution으로 생성함. 목표하는 바는 훈련데이터셋으로 새로운 입력값 x_het에 대해 t_het을 예측하는 것임. 이를 위해 다항함수 (polynomial function)을 적용함. 이러한 형태의 모델을 선형 모델 (linear model)이라함. w의 계수값은 오차 함수 (error function)의 값을 최소화 시키는 방법으로 결정될 수 있다. 오차 함수란 예측값과 실제값.. 더보기
[PRML] 1. introduction 0. 왜 중요한가? 데이터 내의 패턴을 찾는 것은 가장 근본적인 것이며 긴 역사를 갖는다. 예를들어 케플러가 행성관측을 통해 고전역학 발전의 출발점이 된 사례가 있다. 1. 용어들 Training set : 모델의 매개변수 (parameters)를 조정 (tune)하기 위해 사용되는 데이터 셋 Target vector : 입력된 변수에 상응하는 정답 Training phase : learning phase라고도 하며 모델 (f(y))가 조정되어 가는 단계. Test set : 학습이 종료된 후에 훈련이 잘됐는지 평가하기 위해 사용되는 데이터 셋 Generalization : 학습 때 보지 않은 예제들에 대해 올바르게 분류하는 능력. 훈련데이터는 입력 가능한 경우 중 지극히 일부이므로 패턴 인식에서 gen.. 더보기