더빈-왓슨 통계량

더빈-왓슨 통계량(Durbin-Watson statistic)은 회귀 분석에서 잔차(residual)들 사이에 자기상관(autocorrelation)이 존재하는지를 확인하기 위해 사용하는 검정 통계량이다. 주로 시계열 데이터 분석에서 오차항이 서로 독립적인지, 즉 인접한 관측치 간에 상관관계가 있는지를 판별하는 데 활용된다. 1950년과 1951년에 경제학자 제임스 더빈(James Durbin)과 제프리 왓슨(Geoffrey Watson)에 의해 제안되었다.

정의 및 계산

더빈-왓슨 통계량($d$)은 다음과 같은 공식을 통해 계산된다. $$d = \frac{\sum_{t=2}^{n} (e_t - e_{t-1})^2}{\sum_{t=1}^{n} e_t^2}$$ 여기서 $e_t$는 $t$ 시점에서의 잔차를 의미한다. 이 값은 정의상 항상 0과 4 사이의 값을 갖는다.

해석

통계량 $d$의 값에 따른 자기상관의 양상은 다음과 같이 해석된다.

  • $d \approx 2$: 잔차들 사이에 자기상관이 거의 없음을 의미하며, 오차항들이 독립적이라는 가정을 충족한다고 본다.
  • $0 \leq d < 2$: 양(+)의 자기상관이 존재할 가능성이 높음을 나타낸다. $d$ 값이 0에 가까울수록 인접한 잔차들이 서로 비슷한 값을 가지는 경향이 강하다.
  • $2 < d \leq 4$: 음(-)의 자기상관이 존재할 가능성이 높음을 나타낸다. $d$ 값이 4에 가까울수록 인접한 잔차들이 서로 반대되는 부호를 가지는 경향이 강하다.

정확한 유의성 검정을 위해서는 표본의 크기와 독립변수의 개수에 따라 결정되는 임계값($d_L$, $d_U$) 표를 참조하여 기각 여부를 결정한다.

가정 및 한계

더빈-왓슨 검정은 다음과 같은 전제 조건을 가진다.

  1. 회귀 모델에 상수항(intercept)이 포함되어야 한다.
  2. 자기상관의 형태가 1차 자기회귀 모델(AR(1))인 경우를 전제로 한다.
  3. 설명변수(독립변수) 중에 종속변수의 시차 변수(lagged dependent variable)가 포함되어 있지 않아야 한다. 만약 시차 변수가 포함된 모델의 경우에는 더빈의 h-통계량(Durbin's h-statistic)을 사용하는 것이 적절하다.

활용

회귀 분석의 기본 가정 중 하나인 '오차항의 독립성'을 검증하는 도구로 널리 사용된다. 만약 자기상관이 발견될 경우, 최소제곱법(OLS)을 통해 얻은 추정치는 여전히 비편향적일 수 있으나 효율적이지 않게 되며, 표준오차가 과소 또는 과대 평가되어 가설 검정의 신뢰도가 낮아질 수 있다. 이를 해결하기 위해 Cochrane-Orcutt 방법이나 일반화최소제곱법(GLS) 등을 적용하기도 한다.

둘러보기

더 찾아볼 만한 주제