머신러닝(2)
-
[클러스터링] K-MEANS(K-평균 군집)
1. K-MEANS란? 대표적인 분리형 군집화 알고리즘 가운데 하나이며, 각 군집은 하나의 중심(centroid)을 가지고 있다. 각 개체는 가장 가까운 중심에 할당되며, 같은 중심에 할당된 개체들이 모여 하나의 군집을 형성한다. 사용자가 사전에 군집 수(k)가 정해야 알고리즘을 실행할 수 있다. 2. 원리 K-means는 EM 알고리즘을 기반으로 작동합니다. EM알고리즘은 크게 Expectation 스텝과 Maximization 스텝으로 나뉘어져 있다. 군집 수 k를 2로 결정. 최초 군집의 중심(빨간색 점)을 랜덤 초기화합니다 모든 개체들(파란색 점)을 가장 가까운 중심에 군집(녹색 박스)으로 할당하며, 이것이 Expectation 스텝이다. 중심을 군집 경계에 맞게 이동하며, 이것이 Maximiza..
2022.04.19 -
[클러스터링] DBSCAN (밀도 기반 클러스터링)
1. DBSCAN이란? DBSCAN(Density-based spatial clustering of applications with noise) 밀도 기반의 클러스터링은 점이 세밀하게 몰려 있어서 밀도가 높은 부분을 클러스터링 하는 방식이다. 쉽게 설명하면, 어느점을 기준으로 반경 x내에 점이 n개 이상 있으면 하나의 군집으로 인식하는 방식이다. Scikit-Learn 라이브러리 사용시 -> sklearn.cluster.DBSCAN 2. DBSCAN의 원리 기준점 부터의 거리 epsilon값과, 이 반경내에 있는 점의 수 minPts를 인자로 전달 P반경 내 5개의 점이 있기 때문에 군집으로 판단하여 P는 core point가 된다. 회색점 P2의 경우 점 P2를 기반으로 epsilon 반경내의 점이 3..
2022.04.19