정의
단순회귀분석(단순선형회귀분석, Simple Linear Regression)은 하나의 독립 변수(설명 변수)와 하나의 종속 변수(반응 변수) 사이의 선형 관계를 모델링하고, 이를 통해 종속 변수의 값을 예측하거나 두 변수 간의 연관성을 정량적으로 분석하는 통계 기법이다.
수학적 모델
$$
Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i \qquad (i = 1,2,\dots,n)
$$
- $Y_i$ : i번째 관측치의 종속 변수 값
- $X_i$ : i번째 관측치의 독립 변수 값
- $\beta_0$ : 절편 (intercept) – X가 0일 때의 기대값
- $\beta_1$ : 기울기 (slope) – X가 한 단위 증가할 때 Y가 평균적으로 변하는 양
- $\varepsilon_i$ : 오차항, 평균 0, 분산 $\sigma^2$인 독립적인 정규분포를 가정한다.
추정 방법
가장 널리 사용되는 추정법은 최소제곱법(Ordinary Least Squares, OLS)이다. OLS는 잔차 제곱합 $S(\beta_0,\beta_1)=\sum_{i=1}^n (Y_i-\beta_0-\beta_1 X_i)^2$ 을 최소화하는 $\hat{\beta}_0, \hat{\beta}_1$을 구한다.
$$ \hat{\beta}1 = \frac{\sum{i=1}^n (X_i-\bar{X})(Y_i-\bar{Y})}{\sum_{i=1}^n (X_i-\bar{X})^2},\qquad \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1\bar{X} $$
여기서 $\bar{X}, \bar{Y}$는 각각 X와 Y의 표본 평균이다.
주요 가정
| 가정 | 내용 |
|---|---|
| 선형성 | 종속 변수와 독립 변수 사이의 관계가 직선 형태라고 가정한다. |
| 독립성 | 오차항 $\varepsilon_i$는 서로 독립이다. |
| 등분산성(Homoscedasticity) | 오차항의 분산이 모든 X값에 대해 일정하다. |
| 정규성 | 오차항이 정규분포 $N(0,\sigma^2)$를 따른다. |
| 측정오차 없음 | 독립 변수 X는 오차 없이 정확히 측정된다. |
모형 진단
- 잔차 플롯: 선형성 및 등분산성 확인.
- Q–Q 플롯 혹은 Shapiro‑Wilk 검정: 정규성 검정.
- Durbin‑Watson 통계량: 잔차의 자기상관 여부 확인.
- R² (결정계수): 모델이 종속 변수 변동을 얼마나 설명하는지 측정.
- 표준오차, t‑통계량, p‑값: 회귀계수의 통계적 유의성 검정.
해석
- $\hat{\beta}_1 > 0$이면 X가 증가함에 따라 Y도 평균적으로 증가한다.
- $\hat{\beta}_1 < 0$이면 X가 증가함에 따라 Y는 평균적으로 감소한다.
- 절편 $\hat{\beta}_0$는 X=0일 때 Y의 기대값을 나타낸다(해석은 X=0이 의미 있는 범위 내에 있을 때만 유효).
활용 예시
- 경제학: 소비 지출과 가계 소득 간 관계 분석.
- 의학: 약물 용량과 혈압 감소량 간 선형 관계 추정.
- 환경학: 온도와 전력 사용량 사이의 상관관계 모델링.
- 제조업: 생산 시간과 제품 결함 수의 관계 평가.
장점 및 한계
| 장점 | 한계 |
|---|---|
| 모델이 단순하고 해석이 직관적이다. | 실제 관계가 비선형이면 과소·과대 추정 위험이 있다. |
| 계산이 빠르고 표본이 작아도 적용 가능하다. | 독립 변수의 측정오차가 있으면 편향된 추정이 발생한다. |
| 회귀계수의 통계적 검정이 용이하다. | 다중공선성, 이분산성 등 가정 위배 시 결과가 신뢰하기 어렵다. |
관련 기법
- 다중회귀분석: 독립 변수가 두 개 이상인 경우.
- 비선형 회귀: 관계가 직선이 아닌 경우 (예: 로그·지수·다항 회귀).
- 로지스틱 회귀: 종속 변수가 이진(0/1)일 때 사용.
주요 참고문헌
- D. C. Montgomery, E. A. Peck, G. G. Vining, Introduction to Linear Regression Analysis, 5th ed., Wiley, 2012.
- J. H. Friedman, The Elements of Statistical Learning, Springer, 2001.
- 한국통계학회, 통계학 교과서 (2020년 개정판).
위 내용은 단순회귀분석에 대한 전형적인 백과사전 수준의 정의·수식·가정·진단·활용·장단점을 포함하고 있다.