개념
F값(또는 F통계량)은 두 개 이상의 모집단 분산(또는 변동성)의 비율을 나타내는 통계량으로, 통계적 가설 검정에서 특히 분산 분석(ANOVA)과 회귀분석의 전체 적합도 검정에 널리 사용된다. 이 값은 영국의 통계학자 로널드 A. 피셔(Ronald A. Fisher)가 1920년대에 제안한 F‑분포에 기반한다.
수학적 정의
보통 두 독립적인 표본 집단 $X_1,\dots ,X_{n_1}$와 $Y_1,\dots ,Y_{n_2}$에 대해 각각의 표본 분산을 $\displaystyle s_1^{2}=\frac{1}{n_1-1}\sum_{i=1}^{n_1}(X_i-\bar X)^2$ , $\displaystyle s_2^{2}=\frac{1}{n_2-1}\sum_{j=1}^{n_2}(Y_j-\bar Y)^2$ 라고 하면, F값은
$$ F=\frac{s_1^{2}}{s_2^{2}} $$
와 같이 정의된다. 일반적인 ANOVA에서는 여러 그룹의 평균 차이를 검정하기 위해 그룹 간 제곱합(MS${\text{between}}$)을 그룹 내 제곱합(MS${\text{within}}$) 으로 나눈 형태로 나타낸다.
$$ F = \frac{\text{MS}{\text{between}}}{\text{MS}{\text{within}}} $$
여기서
- $\text{MS}{\text{between}} = \dfrac{\text{SS}{\text{between}}}{k-1}$ (k는 그룹 수)
- $\text{MS}{\text{within}} = \dfrac{\text{SS}{\text{within}}}{N-k}$ (N은 전체 표본 크기)
F‑분포
F값은 자유도 $(d_1,d_2)$ 를 갖는 F‑분포를 따른다. 여기서 $d_1$는 분자(그룹 간) 자유도, $d_2$는 분모(그룹 내) 자유도이다. F‑분포는 비대칭이며, 양쪽 꼬리가 긴 특성을 가진다.
주요 활용
| 분야 | 목적 | 구체적 사용 예 |
|---|---|---|
| 분산 분석 (ANOVA) | 여러 집단 평균이 동일한지 검정 | 일원배치 ANOVA, 이원배치 ANOVA |
| 회귀 분석 | 전체 회귀모형이 유의미한지 검정 (전체 F‑검정) | 선형 회귀에서 모델 전체 적합도 검정 |
| 동일분산성 검정 | 두 집단의 분산 차이 검정 (등분산성 검정) | Levene, Bartlett 검정의 대안으로 사용 가능 |
| 다변량 분석 | 다중 회귀, MANOVA 등에서 다변량 F‑통계량 계산 | 다중 변수의 평균 차이 검정 |
해석 방법
- F값이 크다 → 분자(그룹 간) 변동이 분모(그룹 내) 변동보다 크게 나타나며, 귀무 가설(모든 평균이 동일함)이 기각될 가능성이 높다.
- F값이 1에 가깝다 → 두 변동이 비슷하므로 귀무 가설을 기각하기 어렵다.
- p‑값은 해당 F값이 자유도 $(d_1,d_2)$ 를 갖는 F‑분포에서 관측될 확률이며, 일반적으로 0.05 미만이면 통계적으로 유의하다고 판단한다.
가정 및 제한
- 정규성: 각 그룹(또는 오차항)이 정규분포를 따른다.
- 독립성: 표본이 서로 독립적이다.
- 등분산성(동일분산성): 그룹 간에 실제 분산이 동일해야 한다. 등분산성이 위배될 경우, Welch의 ANOVA와 같은 대안 검정을 사용한다.
관련 개념
- t‑검정: 두 집단 평균 차이를 검정할 때, F값은 $F = t^2$ 관계에 있다(자유도 1인 경우).
- 베이즈 F‑검정: 베이즈 통계학에서 F‑분포를 사전분포로 사용하는 방법.
- 효과크 (Effect Size): η²(에타제곱)·Cohen’s f 등은 F값과 연관된 효과크 지표이다.
역사적 배경
로널드 피셔는 1924년에 분산 분석을 위한 통계적 틀을 제시하며, F‑분포와 F값 개념을 도입했다. 이는 당시 실험 설계와 농업 연구에서 복수 요인 간의 효과를 동시에 검정하고자 하는 필요에서 출발했으며, 이후 사회과학·공학·생물학 등 다양한 분야에 널리 확산되었다.
예시
예시 1: 일원배치 ANOVA
세 개의 교육 방법(A, B, C)으로 각각 10명의 학생에게 시험을 보게 한 결과 평균 점수가 각각 78, 85, 82점이라고 가정한다.
- 각 그룹의 제곱합(SS)과 자유도를 계산한다.
MS_between = SS_between / (k-1),MS_within = SS_within / (N-k)을 구한다.F = MS_between / MS_within을 계산하고, 자유도 (2, 27)에 대한 F‑분포표에서 p‑값을 확인한다.- 만약
F = 6.5이고 p‑값 < 0.01이라면, 교육 방법에 따라 평균 점수 차이가 통계적으로 유의함을 의미한다.
예시 2: 회귀의 전체 F‑검정
다변량 회귀 모형 $Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2$ 에 대해 전체 회귀식이 유의미한지 검정한다.
- 회귀 제곱합(SSR)과 잔차 제곱합(SSE)을 구한 뒤,
MSR = SSR / p(p는 설명 변수 개수)와MSE = SSE / (n-p-1)을 계산한다. F = MSR / MSE로 검정통계량을 구하고, 자유도 (p, n-p-1) 에 대한 F‑분포를 이용해 p‑값을 확인한다.
참고 문헌
- Fisher, R. A. (1925). Statistical Methods for Research Workers. Oliver & Boyd.
- Montgomery, D. C. (2017). Design and Analysis of Experiments. 9th ed. Wiley.
- Kutner, M. H., Nachtsheim, C. J., Neter, J. (2004). Applied Linear Statistical Models. 5th ed. McGraw‑Hill.
F값은 통계적 차원에서 분산의 비율을 정량화함으로써, 다양한 실험·관찰 설계에서 “그 차이가 우연에 의한 것인가”를 판단하는 핵심 도구이다. 올바른 가정 검증과 적절한 자유도 고려가 전제되어야 하며, 이를 통해 연구 결과의 신뢰성을 높일 수 있다.