클러스터 분석

정의
클러스터 분석(Cluster Analysis)은 데이터 집합에 포함된 객체들을, 서로 유사성이 높은 객체들끼리 하나의 그룹(클러스터)으로 묶고, 다른 그룹과는 최대한 차별화되도록 구분하는 탐색적 통계·머신러닝 기법을 말한다. 일반적으로 사전 레이블이 없는 비지도 학습 방법에 해당한다.

개요
클러스터 분석은 대규모 데이터에서 패턴을 파악하거나, 데이터의 구조를 이해하고, 이후의 분석·예측 모델링에 활용되는 전처리 단계로 널리 이용된다. 주요 절차는 (1) 데이터 전처리·정규화, (2) 거리·유사도 측정 방법 선택, (3) 군집 형성 알고리즘 적용, (4) 군집 수·형태 평가(예: 실루엣 점수, Davies‑Bouldin 지수)이며, 필요에 따라 결과를 시각화한다.

어원/유래
‘클러스터(Cluster)’는 영어 단어 cluster에서 차용된 것으로, “덩어리, 무리”라는 의미를 가진다. ‘분석(Analysis)’은 라틴어 analysis → 그리스어 analysis에서 유래한 용어이다. 따라서 ‘클러스터 분석’은 영어 “cluster analysis”를 직역·음역한 형태이며, 한국어 학술·산업 현장에서 1990년대 이후 데이터 마이닝·머신러닝 분야의 성장과 함께 보편화되었다.

특징

  1. 비지도 학습 – 사전 레이블이 필요 없으며, 데이터 자체의 구조에 기반한다.
  2. 다양한 알고리즘
    • 계층적 군집화(Hierarchical clustering): 병합형(agglomerative)·분할형(divisive) 방식으로 트리 구조(dendrogram)를 생성한다.
    • 분할형 군집화(Partitioning clustering): K-평균(K‑means), K-중심(K‑medoids) 등으로 사전에 군집 수 k를 지정한다.
    • 밀도 기반 군집화(Density‑based clustering): DBSCAN, OPTICS 등은 임계 밀도에 따라 군집을 형성하고 이상치를 구분한다.
  3. 거리·유사도 측정 – 유클리드 거리, 맨해튼 거리, 코사인 유사도, 마할라노비스 거리 등 목적과 데이터 특성에 맞는 측정 방법을 선택한다.
  4. 군집 수 결정 – 엘보우 방법, 실루엣 분석, GAP 통계 등 여러 정량적 기준을 이용해 최적 군집 수를 추정한다.
  5. 응용 분야 – 고객 세분화, 이미지/문서 클러스터링, 유전정보 군집, 이상치 탐지, 추천 시스템 등 다양하다.

관련 항목

  • 군집 분석(Clustering)
  • K‑means 알고리즘
  • DBSCAN
  • 계층적 군집화
  • 데이터 마이닝
  • 머신러닝
  • 차원 축소(Principal Component Analysis, t‑SNE 등)
  • 이상치 탐지(Outlier detection)

※ 본 항목의 내용은 기존 학술·산업 문헌에 기반한 것이며, 최신 연구 동향에 따라 세부 내용이 변동될 수 있다.

둘러보기

더 찾아볼 만한 주제