정의
군집표집(Cluster Sampling)은 통계학에서 모집단을 여러 개의 서로 배타적인 하위집단, 즉 ‘군집(Cluster)’으로 나눈 뒤, 그 군집 중 일부를 무작위로 선택하고 선택된 군집에 속한 모든 요소를 표본으로 포함하는 확률표집 방법이다. 모집단 전체를 직접 표집하기 어려운 경우, 비용·시간·노동 절감을 위해 활용된다.
주요 특징
| 구분 | 내용 |
|---|---|
| 표집단위 | 모집단 → 군집(예: 지역, 학교, 기업 등) → 선택된 군집의 모든 구성원 |
| 표집방법 | 1) 군집 정의 및 구획 2) 군집 목록 작성(프레임) 3) 군집 무작위 추출 4) 추출된 군집의 전원 조사 |
| 표본 규모 | 전체 모집단 대비 표본 크기는 일반적으로 단순 임의표집보다 크지만, 군집 내 이질성이 낮을 경우 효율적 |
| 가중치 | 군집 크기가 서로 다를 경우, 가중치를 부여해 추정량을 보정한다. |
| 추정량 | 평균, 비율, 총합 등은 군집별 가중 평균(또는 총합)으로 계산한다. |
군집표집의 유형
-
일단계 군집표집 (One‑stage Cluster Sampling)
- 선택된 군집의 모든 단위를 조사한다.
- 예: 특정 지역에 사는 주민 전체를 조사.
-
이단계 군집표집 (Two‑stage Cluster Sampling)
- 선택된 군집 내에서 다시 표본을 추출한다(예: 학교 선택 → 각 학교에서 몇 명의 학생을 무작위 추출).
- 조사 비용을 더 절감할 수 있다.
-
다단계 군집표집 (Multi‑stage Cluster Sampling)
- 두 단계 이상을 거쳐 표집 과정을 진행한다.
- 복합적인 층화·군집 구조에 적합.
장점
- 비용·시간 절감: 현장 조사 시 이동·접촉 비용이 감소한다.
- 실현 가능성: 전국 규모 조사 등 거대한 모집단에 적용하기 용이.
- 행정·지리적 구획 활용: 기존 행정구역·기관 단위를 바로 활용할 수 있다.
단점
- 군집 내 동질성: 군집 구성원이 서로 매우 유사하면 표본 분산이 커져 추정 정확도가 낮아진다.
- 복잡한 가중치 보정: 군집 규모 차이가 클 경우 가중치 계산이 필요하다.
- 표본 설계 어려움: 적절한 군집 정의와 충분한 군집 수 확보가 중요하다.
적용 사례
- 인구조사: 국가통계청에서 지역(동·읍·면)별로 가구를 조사할 때 사용.
- 보건·역학 연구: 특정 지역의 질병 유병률 조사에 학교·병원 등 군집을 활용.
- 시장조사: 대형마트 체인점별 소비자 행동 분석에서 매장을 군집으로 설정.
관련 용어
- 단순 임의표집 (Simple Random Sampling): 모집단의 모든 구성원을 동등하게 선택하는 방법.
- 층화표집 (Stratified Sampling): 모집단을 동질적인 층으로 구분하고 각 층에서 표본을 추출.
- 다단계표집 (Multi‑stage Sampling): 여러 단계에 걸쳐 표집 단위를 점차 세분화하는 방법.
통계적 공식(대표적)
-
군집 평균 추정치
$$ \hat{\mu} = \frac{\sum_{i=1}^{m} N_i \bar{y}i}{\sum{i=1}^{m} N_i} $$- $m$: 선택된 군집 수
- $N_i$: i번째 군집의 전체 요소 수
- $\bar{y}_i$: i번째 군집 내 관측값 평균
-
분산 추정치(일단계)
$$ \hat{V}(\hat{\mu}) = \frac{1}{m(m-1)}\sum_{i=1}^{m} N_i^2 (\bar{y}_i - \hat{\mu})^2 $$
참고문헌
- Cochran, W. G. (1977). Sampling Techniques (3rd ed.). John Wiley & Sons.
- 한국통계학회. (2015). 표본조사의 설계와 분석. 통계연구.
- 김현진 외. (2020). “다단계 군집표집을 활용한 보건조사 방법론”. 보건통계연구, 45(2), 123‑138.