[ML] 비지도학습 - 군집화모델 (K-means Clustering)

AI/ML

[ML] 비지도학습 - 군집화모델 (K-means Clustering)

죵욜이 2024. 12. 29. 01:57

K-means clustering 이란?

K-means clustering은 데이터 포인트를 비슷한 특성을 가진 그룹(클러스터)으로 나누는 비지도 학습(Unsupervised Learning) 알고리즘입니다. 이 방법은 주어진 데이터셋을 사용자가 지정한 k개의 클러스터로 분할하는 것을 목표로 합니다.

작동 원리

초기화 (Initialization):
- k개의 클러스터 중심(centroid)을 무작위로 선택합니다.
할당 단계 (Assignment Step):
- 각 데이터 포인트를 가장 가까운 중심에 할당하여 클러스터를 형성합니다.
- "가장 가까운"은 일반적으로 유클리드 거리(Euclidean Distance)를 기준으로 합니다.
갱신 단계 (Update Step):
- 각 클러스터의 중심을 해당 클러스터에 속한 데이터 포인트의 평균값으로 갱신합니다.
반복 (Iterate):
- 할당 단계와 갱신 단계를 반복하여 중심점이 더 이상 변하지 않을 때까지(또는 수렴 조건을 만족할 때까지) 수행합니다.

거리 측정 방법

유클리드 거리
맨해튼 거리
코사인 유사도
민코프스키 거리
등 여러방식이 있지만 주로 유클리드 거리(Euclidean Distance)를 사용하여 데이터 포인트와 군집 중심 간의 거리를 계산한다.

그렇다면 초기 K 의 값은 어떻게 정할까?

K-means 의 중요한 하이퍼파라미터인 K(클러스터 개수) 를 선택하기 위해 엘보우 방법(Elbow Method)를 주로 사용합니다.

엘보우 포인트(Elbow Point)

클러스터 개수를 선택할 때 클러스터 내 분산(SSE, Sum of Squared Errors)을 최소화하는 k 를 결정
SSE 는 각 데이터포인트와 해당 클러스터 중심 간 거리의 제곱합으로 계산된다.

- 과정

다양한 k 값에 대해 K-means 알고리즘을 실행
각 k 값에 대해 SSE를 계산
SSE를 k값에 대해 플롯
그래프에서 SSE의 감소율이 급격히 줄어드는 지점(팔꿈치 모양)을 찾는다
이 지점이 최적의 K로 간주된다.

알고리즘 종료 조건

클러스터 중심이 더 이상 변화하지 않음.
데이터 포인트의 클러스터 할당이 더 이상 변경되지 않음.
지정된 최대 반복 횟수에 도달.

장점

구현이 간단하고 계산이 빠릅니다.
대규모 데이터셋에서도 비교적 효율적입니다.
클러스터 개수가 명확히 정의된 경우 효과적입니다.

단점

값(클러스터 수)을 사전에 지정해야 합니다.
초기 중심값 선택에 민감하여 지역 최적해(Local Optima)에 빠질 수 있습니다.
구형 클러스터(원형 구조)를 가정하기 때문에 복잡한 데이터 구조를 잘 처리하지 못합니다.
이상치(Outlier)에 민감합니다.

실생활 응용

고객 세분화: 고객의 구매 행동을 기반으로 그룹화하여 마케팅 전략 수립.
이미지 압축: 색상 데이터를 그룹화하여 압축 이미지 생성.
의학적 데이터 분석: 환자 데이터를 기반으로 질병 유형 분류.

K-means 변형 알고리즘

Mini-Batch K-means: 대규모 데이터셋을 처리하기 위해 작은 배치를 사용하여 속도 향상.
K-means++: 초기 중심값을 더 똑똑하게 선택하여 성능 향상.

예시

- 데이터 로드 및 전처리

import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import seaborn as sns

# 데이터 로드
data = pd.read_csv('Mall_Customers.csv')

# 필요한 열 선택 및 결측값 처리
data = data[['Age', 'Annual Income (k$)', 'Spending Score (1-100)']]

# 데이터 스케일링
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data)

- 모델 학습 및 군집화

# 최적의 k 찾기 (엘보우 방법)
inertia = []
K = range(1, 11)
for k in K:
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(data_scaled)
    inertia.append(kmeans.inertia_)

# 엘보우 그래프 그리기
plt.figure(figsize=(10, 8))
plt.plot(K, inertia, 'bx-')
plt.xlabel('k')
plt.ylabel('Inertia')
plt.title('Elbow Method For Optimal k')
plt.show()

# k=5로 모델 생성 및 학습
kmeans = KMeans(n_clusters=5, random_state=42)
kmeans.fit(data_scaled)

# 군집 결과 할당
data['Cluster'] = kmeans.labels_

- 군집 시각화

# 2차원으로 군집 시각화 (연령 vs 소득)
plt.figure(figsize=(10, 8))
sns.scatterplot(x=data['Age'], y=data['Annual Income (k$)'], hue=data['Cluster'], palette='viridis')
plt.title('Clusters of customers (Age vs Annual Income)')
plt.show()

# 2차원으로 군집 시각화 (소득 vs 지출 점수)
plt.figure(figsize=(10, 8))
sns.scatterplot(x=data['Annual Income (k$)'], y=data['Spending Score (1-100)'], hue=data['Cluster'], palette='viridis')
plt.title('Clusters of customers (Annual Income vs Spending Score)')
plt.show()

'AI > ML' 카테고리의 다른 글

[ML] 비지도학습 - 군집화모델 (DBSCAN) (0)	2024.12.29
[ML] 비지도학습 - 군집화모델 (계층적 군집화) (1)	2024.12.29
[ML] 지도학습 - 분류모델 (의사결정나무) (2)	2024.12.29
[ML] 지도학습 - 분류모델 (나이브 베이즈) (1)	2024.12.29
[ML] 지도학습 - 분류모델 (KNN) (0)	2024.12.29

현재글[ML] 비지도학습 - 군집화모델 (K-means Clustering)

응애나애기개발자

티스토리챌린지, 오블완,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

응애나애기개발자

[ML] 비지도학습 - 군집화모델 (K-means Clustering)

K-means clustering 이란?

작동 원리

거리 측정 방법

그렇다면 초기 K 의 값은 어떻게 정할까?

엘보우 포인트(Elbow Point)

알고리즘 종료 조건

장점

단점

실생활 응용

K-means 변형 알고리즘

예시

'AI > ML' 카테고리의 다른 글

'AI/ML'의 다른글

티스토리툴바

[ML] 비지도학습 - 군집화모델 (K-means Clustering)

K-means clustering 이란?

작동 원리

거리 측정 방법

그렇다면 초기 K 의 값은 어떻게 정할까?

엘보우 포인트(Elbow Point)

알고리즘 종료 조건

장점

단점

실생활 응용

K-means 변형 알고리즘

예시

'AI > ML' 카테고리의 다른 글

'AI/ML'의 다른글

관련글

티스토리툴바