모분산
모분산은 모집단에 대한 분산을 의미한다. 모집단 전체의 자료를 이용하여 계산되므로, 모집단의 흩어진 정도를 나타내는 가장 정확한 지표로 간주된다.
정의
모분산(σ²)은 모집단에 있는 각 자료 값들이 모집단의 평균(μ)으로부터 얼마나 떨어져 있는지를 제곱한 값들의 평균으로 정의된다. 수식으로 표현하면 다음과 같다.
σ² = Σ(Xi - μ)² / N
여기서,
- σ²: 모분산
- Xi: 모집단에 속하는 i번째 자료 값
- μ: 모집단의 평균
- N: 모집단의 크기
- Σ: 합계를 나타내는 기호
계산 방법
- 모집단의 평균(μ)을 계산한다.
- 각 자료 값(Xi)에서 모집단 평균(μ)을 뺀 편차(Xi - μ)를 계산한다.
- 각 편차를 제곱한다: (Xi - μ)²
- 모든 제곱된 편차를 합한다: Σ(Xi - μ)²
- 합계를 모집단의 크기(N)로 나눈다.
표본분산과의 차이
모분산은 모집단 전체를 대상으로 계산하는 반면, 표본분산은 모집단에서 추출한 표본을 대상으로 계산한다. 표본분산은 모분산을 추정하기 위해 사용되지만, 표본의 크기가 작을 경우 모분산과 차이가 있을 수 있다. 표본분산은 불편추정량을 얻기 위해 표본 크기(n)에서 1을 뺀 (n-1)로 나누는 반면, 모분산은 모집단 크기(N)로 나눈다. (베셀 보정 참고)
활용
모분산은 통계적 추론, 가설 검정, 신뢰 구간 추정 등 다양한 통계 분석에서 중요한 역할을 한다. 모집단의 변동성을 이해하고, 다른 모집단과의 차이를 비교하는 데 사용될 수 있다. 또한, 예측 모델의 성능을 평가하고 개선하는 데에도 활용된다.
주의사항
모분산을 계산하기 위해서는 모집단 전체의 자료를 알아야 한다. 현실적으로 모집단 전체를 조사하는 것이 어려운 경우가 많으므로, 표본분산을 이용하여 모분산을 추정하는 방법을 사용한다. 이 경우 표본이 모집단을 대표할 수 있도록 표본 추출 과정에 주의해야 한다.