KalelPark's LAB

[ PRML ] Ch1. The Curse of Dimensionality, The Decision Theory 본문

Data Science/PRML

[ PRML ] Ch1. The Curse of Dimensionality, The Decision Theory

kalelpark 2023. 5. 3. 10:37

우선 판별 분석을 먼저 살펴보도록 하겠습니다.
판별 분석이란?
    - 집단을 구분할 수 있는 설명변수를 통하여, 집단 구분 함수식을 도출하고, 집단을 예측하는 것
       분류와의 차이점으로는, 존재하는 그룹의 수를 알고, 새로운 대상이 어느 그룹에 속하는 결정할 때 사용합니다. (KNN)

일반적으로, 가장 손쉬운 방식은 전체 입력 범위를 작은 단위의 셀(cell)로 나누어, x가 속한 셀 내에서 가장 많은 클래스를 확인한 뒤 
해당 클래스로 분류하는 것을 의미합니다.
하지만, 이러한 방식은 입력 데이터의 차원이 증가하게 되면 적용하기 상당히 힘들어집니다.

차원의 저주(the Curse of Dimensionality)

- 저차원 공간에서 얻은 직관이 고차원 공간에서도 통용될 것이라는 것을 믿으면 안됩니다.
   위의 그림을 살펴보면, Dimension이 커질수록, 데이터 간의 거리가 멀어집니다. 이렇게 차원이 증가하면 빈 공간이 생기는데, 빈 공간은
   컴퓨터에서 0으로 채워져 성능 저하를 일으키고, 상당한 메모리 소모를 일으킵니다.

- 이러한 차원의 저주 문제를 해결하기 위한 방법으로는, 훈련 샘플의 밀도가 높아질 때까지 데이터를 모으는 방식이 있습니다.

결정 이론(The Decision Theory)

- 불확실성이 관여된 상황, 즉 베이지안에서의 최적의 결정 과정을 알고자 사용합니다. 
   사후 확률 값이 특정 수준(threshold)에 미치지 못하면 클래스 선택을 보류하도록 합니다.

 

 

 

Comments