단순회귀분석

정의
단순회귀분석(단순선형회귀분석, Simple Linear Regression)은 하나의 독립 변수(설명 변수)와 하나의 종속 변수(반응 변수) 사이의 선형 관계를 모델링하고, 이를 통해 종속 변수의 값을 예측하거나 두 변수 간의 연관성을 정량적으로 분석하는 통계 기법이다.

수학적 모델
$$ Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i \qquad (i = 1,2,\dots,n) $$

  • $Y_i$ : i번째 관측치의 종속 변수 값
  • $X_i$ : i번째 관측치의 독립 변수 값
  • $\beta_0$ : 절편 (intercept) – X가 0일 때의 기대값
  • $\beta_1$ : 기울기 (slope) – X가 한 단위 증가할 때 Y가 평균적으로 변하는 양
  • $\varepsilon_i$ : 오차항, 평균 0, 분산 $\sigma^2$인 독립적인 정규분포를 가정한다.

추정 방법
가장 널리 사용되는 추정법은 최소제곱법(Ordinary Least Squares, OLS)이다. OLS는 잔차 제곱합 $S(\beta_0,\beta_1)=\sum_{i=1}^n (Y_i-\beta_0-\beta_1 X_i)^2$ 을 최소화하는 $\hat{\beta}_0, \hat{\beta}_1$을 구한다.

$$ \hat{\beta}1 = \frac{\sum{i=1}^n (X_i-\bar{X})(Y_i-\bar{Y})}{\sum_{i=1}^n (X_i-\bar{X})^2},\qquad \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1\bar{X} $$

여기서 $\bar{X}, \bar{Y}$는 각각 X와 Y의 표본 평균이다.

주요 가정

가정 내용
선형성 종속 변수와 독립 변수 사이의 관계가 직선 형태라고 가정한다.
독립성 오차항 $\varepsilon_i$는 서로 독립이다.
등분산성(Homoscedasticity) 오차항의 분산이 모든 X값에 대해 일정하다.
정규성 오차항이 정규분포 $N(0,\sigma^2)$를 따른다.
측정오차 없음 독립 변수 X는 오차 없이 정확히 측정된다.

모형 진단

  • 잔차 플롯: 선형성 및 등분산성 확인.
  • Q–Q 플롯 혹은 Shapiro‑Wilk 검정: 정규성 검정.
  • Durbin‑Watson 통계량: 잔차의 자기상관 여부 확인.
  • R² (결정계수): 모델이 종속 변수 변동을 얼마나 설명하는지 측정.
  • 표준오차, t‑통계량, p‑값: 회귀계수의 통계적 유의성 검정.

해석

  • $\hat{\beta}_1 > 0$이면 X가 증가함에 따라 Y도 평균적으로 증가한다.
  • $\hat{\beta}_1 < 0$이면 X가 증가함에 따라 Y는 평균적으로 감소한다.
  • 절편 $\hat{\beta}_0$는 X=0일 때 Y의 기대값을 나타낸다(해석은 X=0이 의미 있는 범위 내에 있을 때만 유효).

활용 예시

  • 경제학: 소비 지출과 가계 소득 간 관계 분석.
  • 의학: 약물 용량과 혈압 감소량 간 선형 관계 추정.
  • 환경학: 온도와 전력 사용량 사이의 상관관계 모델링.
  • 제조업: 생산 시간과 제품 결함 수의 관계 평가.

장점 및 한계

장점 한계
모델이 단순하고 해석이 직관적이다. 실제 관계가 비선형이면 과소·과대 추정 위험이 있다.
계산이 빠르고 표본이 작아도 적용 가능하다. 독립 변수의 측정오차가 있으면 편향된 추정이 발생한다.
회귀계수의 통계적 검정이 용이하다. 다중공선성, 이분산성 등 가정 위배 시 결과가 신뢰하기 어렵다.

관련 기법

  • 다중회귀분석: 독립 변수가 두 개 이상인 경우.
  • 비선형 회귀: 관계가 직선이 아닌 경우 (예: 로그·지수·다항 회귀).
  • 로지스틱 회귀: 종속 변수가 이진(0/1)일 때 사용.

주요 참고문헌

  1. D. C. Montgomery, E. A. Peck, G. G. Vining, Introduction to Linear Regression Analysis, 5th ed., Wiley, 2012.
  2. J. H. Friedman, The Elements of Statistical Learning, Springer, 2001.
  3. 한국통계학회, 통계학 교과서 (2020년 개정판).

위 내용은 단순회귀분석에 대한 전형적인 백과사전 수준의 정의·수식·가정·진단·활용·장단점을 포함하고 있다.

둘러보기

더 찾아볼 만한 주제