[Machine Learning] 비지도 학습
기계학습의 종류
지도 학습
: 입력(문제) - 출력(답)의 데이터들로부터 새로운 입력에 대한 출력을 결정할 수 있는 패턴 추출비지도 학습
: 출력에 대한 정보가 없는 데이터로부터 필요한 패턴 추출반지도 학습
: 일부 학습 데이터만 출력값이 주어진 상태에서 일반화한 패턴 추출강화 학습
: 출력에 대한 정확한 정보를 제공하지는 않지만, 평가 정보(reward)는 주어지는 문제에 대해 각 상태에서의 행동(action)을 결정
군집화
유사성(Euclidean/Cosine/Jaccard/… Similarity)에 따라 데이터를 분할하는 것
군집화의 종류
- 일반 군집화 (hard clustering)
- 데이터는 하나의 군집에만 소속
- 예) k-means, DBSCAN
- 퍼지 군집화 (fuzzy clustering)
- 데이터가 여러 군집에 부분적으로 소속
- 소속정도의 합은 1이 됨
- 예) fuzzy k-means
용도
- 데이터에 내재된 구조 추정
- 이상치 감지
- 데이터 압축: 동일 군집의 데이터를 같은 값으로 표현
- 데이터 전처리 작업
성능
- 군집 내의 분산
- 군집 간의 거리
밀도 추정
부류(class)별 데이터를 만들어 냈을 것으로 추정되는 확률분포를 찾는 것
밀도 추정의 종류
- 모수적(parametric) 밀도 추정
- 분포가 특정 수학적 함수의 형태를 가지고 있다고 가정
- 주어진 데이터를 가장 잘 반영하도록 함수의 파라미터 결정
- 예) 가우시안 함수, 여러 개의 가우시안 함수의 혼합 형태
- 비모수적(nonparametric) 밀도 추정
- 분포에 대한 특정 함수를 가정하지 않고, 주어진 데이터를 사용하여 밀도 함수의 형태 표현
- 예) 히스토그램
용도
- 각 부류 별로 주어진 데이터를 발생시키는 확률 계산
- 가장 확률이 높은 부류로 분류
차원 축소
고차원의 데이터를 정보의 손실을 최소화하면서 저차원으로 변환하는 것
목적
- 2, 3차원으로 변환해 시각화하면 직관적 데이터 분석 가능
- 차원의 저주 문제 완화
- 추론 시간 감소
차원의 저주
-
차원이 커질수록 거리 분포가 일정해지는 경향
-
차원이 증가함에 따라 부분 공간의 개수가 기하급수적으로 증가 (메모리의 증가)
주성분 분석 (Principal Component Analysis, PCA)
- 분산이 큰 축을 기준으로 데이터를 사상(projection)하여 저차원으로 변환
- 데이터의 공분산 행렬(covariance matrix)에 대한 고유값(eigenvalue)이 큰 소수의 고유벡터(eigenvector)를 사상 축으로 선택
이상치 탐지
- 이상치(outlier)
- 다른 데이터와 크게 달라서 다른 메커니즘에 의해 생성된 것이 아닌지 의심스러운 데이터
- 관심 대상
- 잡음(noise)
- 관측 오류, 시스템에서 발생하는 무작위적인 오차
- 관심이 없는 제거할 대상
- 신규성 탐지
이상치의 종류
-
점 이상치
- 다른 데이터와 비교하여 차이가 큰 데이터
-
상황적 이상치
- 상황에 맞지 않는 데이터
- 예) 여름철에 25도인 데이터는 정상, 겨울철에 25도는 이상치
-
집단적 이상치
- 여러 데이터를 모아서 보면 비정상으로 보이는 데이터들의 집단
- 부정사용감지 시스템
- 이상한 거래 승인 요청 시에 카드 소유자에게 자동으로 경고 메시지 전송
- 침입탐지 시스템
- 네트워크 트래픽을 관찰하여 이상 접근 식별
- 시스템의 고장 진단, 임상에서 질환 진단 및 모니터링, 공공보건에서 유행병의 탐지, 스포츠 통계학에서 특이 사건 감지, 관측 오류의 감지 등
반지도 학습
입력에 대한 결과값이 없는 미분류 데이터를 지도 학습에 사용하는 방법
- 분류된 데이터(labeled data)는 높은 획득 비용, 미분류 데이터(unlabeled data는 낮은 획득 비용
- 분류 경계가 인접한 미분류 데이터들이 동일한 집단에 소속하도록 학습
- 같은 군집에 속하는 것은 가능한 동일한 부류에 소속하도록 학습
반지도 학습의 가정
-
평활성 가정
- 가까이 있는 점들은 서로 같은 부류에 속할 가능성이 높음
-
군집 가정
- 같은 군집에 속하는 데이터는 동일한 부류에 속할 가능성이 높음
-
매니폴드 가정
- 원래 차원보다 낮은 차원의 매니폴드에 데이터에 분포할 가능성이 높음
- 낮은 차원의 매니폴드를 찾아 고차원의 데이터를 설명
Leave a comment