[Machine Learning] 군집화 알고리즘과 단순 베이즈 분류기

less than 1 minute read


군집화 알고리즘

군집화 알고리즘이란 데이터를 유사한 것들끼리 모으는 것입니다.

군집 간유사도는 작게(거리는 크게), 군집 내유사도는 크게(거리는 작게)하는 것입니다.

계층적 군집화 (Hierarchical clustering)

  • 군집화의 결과가 군집들이 계층적인 구조를 갖도록 하는 것
  • 병합형(agglomerative) 계층적 군집화
    • 각 데이터가 하나의 군집을 구성하는 상태에서 시작하여, 가까이에 있는 군집들을 결합하는 과정을 반복하여 계층적인 군집 형성
  • 분리형(divisive) 계층적 군집화
    • 모든 데이터를 포함한 군집에서 시작하여 유사성을 바탕으로 군집을 분리하여 점차 계층적인 구조를 갖도록 구성

image-20211103215106346


분할 군집화

  • 계층적 구조를 만들지 않고 전체 데이터를 유사한 것들끼리 나누어서 묶는 것
  • K-Means 알고리즘

K-Means 알고리즘

  • 전체 분산값 V를 최소화하는 Si를 찾는 것이 알고리즘의 목표

    image-20211103215730452

  • 과정

  1. 군집초기 중심위치를 무작위로 선정
  2. 군집 중심을 기준으로 군집 재구성
  3. 군집별 중심을 군집별 평균 위치로 재조정
  4. 2~3 과정을 군집 중심이 변하지 않을 때까지 반복
  • 특성
    • 군집의 개수 k는 미리 지정
    • 초기 군집 위치에 민감

image-20211103215127720



단순 베이즈 분류기

  • 부류(class)의 결정 지식을 조건부 확률(conditional probability)로 결정

    • P(c x1, x2, …, xn): 속성값에 대한 부류의 조건부 확률
      • c: 부류
      • xi: 속성값
  • 베이즈 정리

    image-20211103215913601

  • 가능도(likelihood)의 조건부 독립(conditional independence) 가정

    image-20211103215940521

  • 예시

image-20211103220159246



Leave a comment