초기하 분포
초기하 분포는 유한 모집단에서 비복원 추출을 할 때 특정 속성을 가진 표본의 개수에 대한 확률 분포이다. 즉, 크기가 N인 모집단에 특정 속성을 가진 원소가 K개 있을 때, 이 모집단에서 n개의 표본을 비복원 추출했을 때 특정 속성을 가진 원소가 x개 포함될 확률을 나타낸다. 이 분포는 주로 통계적 품질 관리, 여론 조사, 생물학적 연구 등에서 사용된다.
정의
N개의 원소로 이루어진 모집단에 K개의 특정 속성 원소가 있을 때, 크기가 n인 표본을 비복원 추출했을 때 특정 속성 원소가 x개 추출될 확률은 다음과 같다.
P(X = x) = (K choose x) * (N-K choose n-x) / (N choose n)
여기서:
- N은 모집단의 크기
- K는 모집단 내 특정 속성을 가진 원소의 개수
- n은 추출하는 표본의 크기
- x는 추출된 표본 중 특정 속성을 가진 원소의 개수
- (a choose b)는 이항계수를 의미하며, "a개 중에서 b개를 선택하는 경우의 수"를 나타낸다.
조건
초기하 분포는 다음 조건을 만족해야 한다.
- n ≤ N (표본의 크기는 모집단의 크기보다 작거나 같아야 한다.)
- max(0, n - (N - K)) ≤ x ≤ min(n, K) (추출되는 특정 속성 원소의 개수는 0개 이상, n개 이하이며, 또한 모집단 내 특정 속성 원소의 개수 K개 이하이다.)
기댓값과 분산
초기하 분포의 기댓값(E[X])과 분산(Var[X])은 다음과 같다.
- E[X] = n * (K / N)
- Var[X] = n * (K / N) * ((N - K) / N) * ((N - n) / (N - 1))
예시
상자 안에 빨간 공 5개와 파란 공 7개가 들어있다. 이 상자에서 임의로 3개의 공을 꺼낼 때, 빨간 공이 2개 나올 확률은 다음과 같이 계산할 수 있다.
- N = 12 (전체 공의 개수)
- K = 5 (빨간 공의 개수)
- n = 3 (꺼내는 공의 개수)
- x = 2 (꺼낸 빨간 공의 개수)
P(X = 2) = (5 choose 2) * (7 choose 1) / (12 choose 3) = (10 * 7) / 220 = 70 / 220 ≈ 0.318
따라서 빨간 공이 2개 나올 확률은 약 31.8%이다.
이항 분포와의 관계
모집단의 크기 N이 매우 크고 표본의 크기 n이 작을 경우, 초기하 분포는 이항 분포로 근사될 수 있다. 이는 모집단이 충분히 크면 비복원 추출이 복원 추출과 거의 동일한 효과를 가지기 때문이다. 이때 이항 분포의 성공 확률 p는 K/N으로 설정한다.
활용
초기하 분포는 다음과 같은 다양한 분야에서 활용된다.
- 품질 관리: 제품 배치에서 불량품의 수를 추정하는 데 사용된다.
- 여론 조사: 특정 집단에서 특정 의견을 가진 사람의 수를 추정하는 데 사용된다.
- 생물학: 특정 지역에서 특정 종의 개체수를 추정하는 데 사용된다.
- 카드 게임: 특정 카드 덱에서 특정 카드를 뽑을 확률을 계산하는 데 사용된다.
관련 항목
- 이항 분포
- 포아송 분포
- 확률 분포