[Machine Learning] 비지도 학습

2 minute read


기계학습의 종류

  • 지도 학습: 입력(문제) - 출력()의 데이터들로부터 새로운 입력에 대한 출력을 결정할 수 있는 패턴 추출
  • 비지도 학습: 출력에 대한 정보가 없는 데이터로부터 필요한 패턴 추출
  • 반지도 학습: 일부 학습 데이터출력값이 주어진 상태에서 일반화한 패턴 추출
  • 강화 학습: 출력에 대한 정확한 정보를 제공하지는 않지만, 평가 정보(reward)는 주어지는 문제에 대해 각 상태에서의 행동(action)을 결정


군집화

유사성(Euclidean/Cosine/Jaccard/… Similarity)에 따라 데이터를 분할하는 것

image-20211027185259681

군집화의 종류

  • 일반 군집화 (hard clustering)
    • 데이터는 하나의 군집에만 소속
    • 예) k-means, DBSCAN
  • 퍼지 군집화 (fuzzy clustering)
    • 데이터가 여러 군집에 부분적으로 소속
    • 소속정도의 합은 1이 됨
    • 예) fuzzy k-means

용도

  • 데이터에 내재된 구조 추정
  • 이상치 감지
  • 데이터 압축: 동일 군집의 데이터를 같은 값으로 표현
  • 데이터 전처리 작업

성능

  • 군집 내의 분산
  • 군집 간의 거리



밀도 추정

부류(class)별 데이터를 만들어 냈을 것으로 추정되는 확률분포를 찾는 것

image-20211027185312324

밀도 추정의 종류

  • 모수적(parametric) 밀도 추정
    • 분포가 특정 수학적 함수의 형태를 가지고 있다고 가정
    • 주어진 데이터를 가장 잘 반영하도록 함수의 파라미터 결정
    • 예) 가우시안 함수, 여러 개의 가우시안 함수의 혼합 형태
  • 비모수적(nonparametric) 밀도 추정
    • 분포에 대한 특정 함수를 가정하지 않고, 주어진 데이터를 사용하여 밀도 함수의 형태 표현
    • 예) 히스토그램

용도

  • 각 부류 별로 주어진 데이터를 발생시키는 확률 계산
  • 가장 확률이 높은 부류로 분류



차원 축소

고차원의 데이터를 정보의 손실을 최소화하면서 저차원으로 변환하는 것

image-20211027185346686

목적

  • 2, 3차원으로 변환해 시각화하면 직관적 데이터 분석 가능
  • 차원의 저주 문제 완화
  • 추론 시간 감소

차원의 저주

  • 차원이 커질수록 거리 분포가 일정해지는 경향

    image-20211027184213426

  • 차원이 증가함에 따라 부분 공간의 개수가 기하급수적으로 증가 (메모리의 증가)

    image-20211027184245635

주성분 분석 (Principal Component Analysis, PCA)

  • 분산이 큰 축을 기준으로 데이터를 사상(projection)하여 저차원으로 변환
  • 데이터의 공분산 행렬(covariance matrix)에 대한 고유값(eigenvalue)이 큰 소수의 고유벡터(eigenvector)를 사상 축으로 선택

image-20211027184436413



이상치 탐지

  • 이상치(outlier)
    • 다른 데이터와 크게 달라서 다른 메커니즘에 의해 생성된 것이 아닌지 의심스러운 데이터
    • 관심 대상
  • 잡음(noise)
    • 관측 오류, 시스템에서 발생하는 무작위적인 오차
    • 관심이 없는 제거할 대상
  • 신규성 탐지

이상치의 종류

  • 점 이상치

    • 다른 데이터와 비교하여 차이가 큰 데이터

    image-20211027184637585

  • 상황적 이상치

    • 상황에 맞지 않는 데이터
    • 예) 여름철에 25도인 데이터는 정상, 겨울철에 25도는 이상치
  • 집단적 이상치

    • 여러 데이터를 모아서 보면 비정상으로 보이는 데이터들의 집단

    image-20211027184731054

  • 부정사용감지 시스템
    • 이상한 거래 승인 요청 시에 카드 소유자에게 자동으로 경고 메시지 전송
  • 침입탐지 시스템
    • 네트워크 트래픽을 관찰하여 이상 접근 식별
  • 시스템의 고장 진단, 임상에서 질환 진단 및 모니터링, 공공보건에서 유행병의 탐지, 스포츠 통계학에서 특이 사건 감지, 관측 오류의 감지 등



반지도 학습

입력에 대한 결과값이 없는 미분류 데이터지도 학습에 사용하는 방법

  • 분류된 데이터(labeled data)는 높은 획득 비용, 미분류 데이터(unlabeled data는 낮은 획득 비용
  • 분류 경계가 인접한 미분류 데이터들이 동일한 집단에 소속하도록 학습
  • 같은 군집에 속하는 것은 가능한 동일한 부류에 소속하도록 학습

image-20211027185015130

반지도 학습의 가정

  • 평활성 가정

    • 가까이 있는 점들은 서로 같은 부류에 속할 가능성이 높음
  • 군집 가정

    • 같은 군집에 속하는 데이터는 동일한 부류에 속할 가능성이 높음
  • 매니폴드 가정

    • 원래 차원보다 낮은 차원의 매니폴드에 데이터에 분포할 가능성이 높음
    • 낮은 차원의 매니폴드를 찾아 고차원의 데이터를 설명

    image-20211027185145489



Leave a comment