더빈-왓슨 통계량(Durbin-Watson statistic)은 회귀 분석에서 잔차(residual)들 사이에 자기상관(autocorrelation)이 존재하는지를 확인하기 위해 사용하는 검정 통계량이다. 주로 시계열 데이터 분석에서 오차항이 서로 독립적인지, 즉 인접한 관측치 간에 상관관계가 있는지를 판별하는 데 활용된다. 1950년과 1951년에 경제학자 제임스 더빈(James Durbin)과 제프리 왓슨(Geoffrey Watson)에 의해 제안되었다.
정의 및 계산
더빈-왓슨 통계량($d$)은 다음과 같은 공식을 통해 계산된다. $$d = \frac{\sum_{t=2}^{n} (e_t - e_{t-1})^2}{\sum_{t=1}^{n} e_t^2}$$ 여기서 $e_t$는 $t$ 시점에서의 잔차를 의미한다. 이 값은 정의상 항상 0과 4 사이의 값을 갖는다.
해석
통계량 $d$의 값에 따른 자기상관의 양상은 다음과 같이 해석된다.
- $d \approx 2$: 잔차들 사이에 자기상관이 거의 없음을 의미하며, 오차항들이 독립적이라는 가정을 충족한다고 본다.
- $0 \leq d < 2$: 양(+)의 자기상관이 존재할 가능성이 높음을 나타낸다. $d$ 값이 0에 가까울수록 인접한 잔차들이 서로 비슷한 값을 가지는 경향이 강하다.
- $2 < d \leq 4$: 음(-)의 자기상관이 존재할 가능성이 높음을 나타낸다. $d$ 값이 4에 가까울수록 인접한 잔차들이 서로 반대되는 부호를 가지는 경향이 강하다.
정확한 유의성 검정을 위해서는 표본의 크기와 독립변수의 개수에 따라 결정되는 임계값($d_L$, $d_U$) 표를 참조하여 기각 여부를 결정한다.
가정 및 한계
더빈-왓슨 검정은 다음과 같은 전제 조건을 가진다.
- 회귀 모델에 상수항(intercept)이 포함되어야 한다.
- 자기상관의 형태가 1차 자기회귀 모델(AR(1))인 경우를 전제로 한다.
- 설명변수(독립변수) 중에 종속변수의 시차 변수(lagged dependent variable)가 포함되어 있지 않아야 한다. 만약 시차 변수가 포함된 모델의 경우에는 더빈의 h-통계량(Durbin's h-statistic)을 사용하는 것이 적절하다.
활용
회귀 분석의 기본 가정 중 하나인 '오차항의 독립성'을 검증하는 도구로 널리 사용된다. 만약 자기상관이 발견될 경우, 최소제곱법(OLS)을 통해 얻은 추정치는 여전히 비편향적일 수 있으나 효율적이지 않게 되며, 표준오차가 과소 또는 과대 평가되어 가설 검정의 신뢰도가 낮아질 수 있다. 이를 해결하기 위해 Cochrane-Orcutt 방법이나 일반화최소제곱법(GLS) 등을 적용하기도 한다.