표본분산
표본분산(Sample Variance)은 모집단에서 추출한 표본 데이터를 이용하여 계산한 분산의 추정치이다. 모집단 전체를 조사하는 것이 현실적으로 불가능한 경우, 모집단의 특성을 파악하기 위해 표본을 추출하여 분석하며, 이때 표본분산은 모집단 분산을 추정하는 데 사용된다.
정의
표본분산은 표본 데이터들이 표본평균으로부터 얼마나 흩어져 있는지를 나타내는 통계량이다. 일반적으로 표본분산은 $s^2$으로 표기하며, 다음과 같은 식으로 계산된다.
$s^2 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1}$
여기서,
- $x_i$: 표본 데이터의 각 값
- $\bar{x}$: 표본평균 (표본 데이터들의 평균)
- $n$: 표본의 크기
특징
- 자유도 (n-1): 표본분산을 계산할 때 분모에 $n$이 아닌 $n-1$을 사용하는 이유는 불편성(unbiasedness)을 확보하기 위함이다. 만약 $n$을 사용하면 표본분산이 모집단 분산을 과소 추정하는 경향이 있다. $n-1$은 자유도를 의미하며, 표본평균을 계산하는 과정에서 하나의 제약이 생기기 때문에 표본 크기에서 1을 뺀 값을 사용한다.
- 모집단 분산의 추정: 표본분산은 모집단 분수를 추정하는 데 사용되지만, 표본에서 계산된 값이기 때문에 항상 모집단 분수와 일치하지는 않는다. 표본의 크기가 클수록 표본분산은 모집단 분수에 가까워진다.
- 단위: 표본분산의 단위는 원래 데이터 단위의 제곱이다. 따라서 데이터의 흩어짐 정도를 원래 단위로 나타내기 위해서는 표본분산의 제곱근인 표본표준편차를 사용한다.
활용
표본분산은 통계적 추론, 가설 검정, 회귀 분석 등 다양한 통계 분석에서 중요한 역할을 한다. 예를 들어, 두 집단의 평균 차이를 검정할 때 각 집단의 표본분산을 이용하여 검정 통계량을 계산한다. 또한, 회귀 분석에서는 잔차의 분산을 추정하는 데 사용된다.