[Machine Learning] 군집화 알고리즘과 단순 베이즈 분류기
군집화 알고리즘
군집화 알고리즘
이란 데이터를 유사한 것들끼리 모으는 것입니다.
군집 간의 유사도는 작게(거리는 크게), 군집 내의 유사도는 크게(거리는 작게)하는 것입니다.
계층적 군집화 (Hierarchical clustering)
- 군집화의 결과가 군집들이 계층적인 구조를 갖도록 하는 것
- 병합형(agglomerative) 계층적 군집화
- 각 데이터가 하나의 군집을 구성하는 상태에서 시작하여, 가까이에 있는 군집들을 결합하는 과정을 반복하여 계층적인 군집 형성
- 분리형(divisive) 계층적 군집화
- 모든 데이터를 포함한 군집에서 시작하여 유사성을 바탕으로 군집을 분리하여 점차 계층적인 구조를 갖도록 구성
분할 군집화
- 계층적 구조를 만들지 않고 전체 데이터를 유사한 것들끼리 나누어서 묶는 것
- K-Means 알고리즘
K-Means 알고리즘
-
전체 분산값 V를 최소화하는 Si를 찾는 것이 알고리즘의 목표
-
과정
- 군집의 초기 중심위치를 무작위로 선정
- 군집 중심을 기준으로 군집 재구성
- 군집별 중심을 군집별 평균 위치로 재조정
- 2~3 과정을 군집 중심이 변하지 않을 때까지 반복
- 특성
- 군집의 개수 k는 미리 지정
- 초기 군집 위치에 민감
단순 베이즈 분류기
-
부류(class)의 결정 지식을 조건부 확률(conditional probability)로 결정
-
P(c x1, x2, …, xn): 속성값에 대한 부류의 조건부 확률 - c: 부류
- xi: 속성값
-
-
베이즈 정리
-
가능도(likelihood)의 조건부 독립(conditional independence) 가정
-
예시
Leave a comment