군집표집

정의
군집표집(Cluster Sampling)은 통계학에서 모집단을 여러 개의 서로 배타적인 하위집단, 즉 ‘군집(Cluster)’으로 나눈 뒤, 그 군집 중 일부를 무작위로 선택하고 선택된 군집에 속한 모든 요소를 표본으로 포함하는 확률표집 방법이다. 모집단 전체를 직접 표집하기 어려운 경우, 비용·시간·노동 절감을 위해 활용된다.

주요 특징

구분 내용
표집단위 모집단 → 군집(예: 지역, 학교, 기업 등) → 선택된 군집의 모든 구성원
표집방법 1) 군집 정의 및 구획
2) 군집 목록 작성(프레임)
3) 군집 무작위 추출
4) 추출된 군집의 전원 조사
표본 규모 전체 모집단 대비 표본 크기는 일반적으로 단순 임의표집보다 크지만, 군집 내 이질성이 낮을 경우 효율적
가중치 군집 크기가 서로 다를 경우, 가중치를 부여해 추정량을 보정한다.
추정량 평균, 비율, 총합 등은 군집별 가중 평균(또는 총합)으로 계산한다.

군집표집의 유형

  1. 일단계 군집표집 (One‑stage Cluster Sampling)

    • 선택된 군집의 모든 단위를 조사한다.
    • 예: 특정 지역에 사는 주민 전체를 조사.
  2. 이단계 군집표집 (Two‑stage Cluster Sampling)

    • 선택된 군집 내에서 다시 표본을 추출한다(예: 학교 선택 → 각 학교에서 몇 명의 학생을 무작위 추출).
    • 조사 비용을 더 절감할 수 있다.
  3. 다단계 군집표집 (Multi‑stage Cluster Sampling)

    • 두 단계 이상을 거쳐 표집 과정을 진행한다.
    • 복합적인 층화·군집 구조에 적합.

장점

  • 비용·시간 절감: 현장 조사 시 이동·접촉 비용이 감소한다.
  • 실현 가능성: 전국 규모 조사 등 거대한 모집단에 적용하기 용이.
  • 행정·지리적 구획 활용: 기존 행정구역·기관 단위를 바로 활용할 수 있다.

단점

  • 군집 내 동질성: 군집 구성원이 서로 매우 유사하면 표본 분산이 커져 추정 정확도가 낮아진다.
  • 복잡한 가중치 보정: 군집 규모 차이가 클 경우 가중치 계산이 필요하다.
  • 표본 설계 어려움: 적절한 군집 정의와 충분한 군집 수 확보가 중요하다.

적용 사례

  • 인구조사: 국가통계청에서 지역(동·읍·면)별로 가구를 조사할 때 사용.
  • 보건·역학 연구: 특정 지역의 질병 유병률 조사에 학교·병원 등 군집을 활용.
  • 시장조사: 대형마트 체인점별 소비자 행동 분석에서 매장을 군집으로 설정.

관련 용어

  • 단순 임의표집 (Simple Random Sampling): 모집단의 모든 구성원을 동등하게 선택하는 방법.
  • 층화표집 (Stratified Sampling): 모집단을 동질적인 층으로 구분하고 각 층에서 표본을 추출.
  • 다단계표집 (Multi‑stage Sampling): 여러 단계에 걸쳐 표집 단위를 점차 세분화하는 방법.

통계적 공식(대표적)

  • 군집 평균 추정치
    $$ \hat{\mu} = \frac{\sum_{i=1}^{m} N_i \bar{y}i}{\sum{i=1}^{m} N_i} $$

    • $m$: 선택된 군집 수
    • $N_i$: i번째 군집의 전체 요소 수
    • $\bar{y}_i$: i번째 군집 내 관측값 평균
  • 분산 추정치(일단계)
    $$ \hat{V}(\hat{\mu}) = \frac{1}{m(m-1)}\sum_{i=1}^{m} N_i^2 (\bar{y}_i - \hat{\mu})^2 $$

참고문헌

  1. Cochran, W. G. (1977). Sampling Techniques (3rd ed.). John Wiley & Sons.
  2. 한국통계학회. (2015). 표본조사의 설계와 분석. 통계연구.
  3. 김현진 외. (2020). “다단계 군집표집을 활용한 보건조사 방법론”. 보건통계연구, 45(2), 123‑138.
둘러보기

더 찾아볼 만한 주제