편차
편차 (deviation)는 통계학에서 자료 값과 평균 또는 중앙값과 같은 대표값 사이의 차이를 나타내는 값이다. 즉, 개별 관측값이 전체 데이터 집합의 중심 경향으로부터 얼마나 떨어져 있는지를 보여주는 지표이다.
편차는 각 데이터 포인트가 평균으로부터 얼마나 벗어나는지를 측정함으로써 데이터의 흩어진 정도, 즉 변동성을 파악하는 데 중요한 역할을 한다. 편차의 절대값이 클수록 해당 데이터는 평균에서 멀리 떨어져 있으며, 편차의 절대값이 작을수록 평균에 가깝다는 의미이다.
계산 방법:
편차는 일반적으로 다음과 같은 방법으로 계산된다.
-
개별 데이터 포인트의 편차: 각 데이터 값에서 전체 데이터 집합의 평균을 뺀 값이다. 수식으로 표현하면 다음과 같다.
- 편차 = 데이터 값 (xᵢ) - 평균 (μ)
-
편차의 합: 모든 데이터 포인트의 편차를 더한 값이다. 이론적으로 편차의 합은 항상 0이 된다. 이는 평균이 데이터 집합의 중심이기 때문이다.
활용:
편차는 데이터 분석 및 통계적 추론에 있어 다양한 용도로 활용된다.
- 분산 및 표준 편차 계산: 편차를 제곱하여 합산한 후 데이터 개수로 나누면 분산이 되며, 분산의 제곱근은 표준 편차가 된다. 분산과 표준 편차는 데이터의 흩어진 정도를 나타내는 대표적인 지표이다.
- 이상치 탐지: 편차가 큰 데이터 포인트는 이상치로 간주될 수 있다.
- 회귀 분석: 회귀 분석에서 잔차는 실제 값과 예측 값의 편차를 나타내며, 모델의 적합도를 평가하는 데 사용된다.
- 데이터 분포 시각화: 편차를 이용하여 히스토그램이나 산점도 등을 통해 데이터의 분포를 시각적으로 표현할 수 있다.
주의 사항:
편차의 합은 항상 0이 되므로, 데이터의 흩어진 정도를 직접적으로 나타내는 데는 한계가 있다. 따라서 분산이나 표준 편차와 같은 지표를 함께 사용하여 데이터의 변동성을 파악하는 것이 일반적이다.