중앙값
중앙값(中央값, median)은 통계학에서 주어진 값들을 크기 순서대로 정렬했을 때, 가장 중앙에 위치하는 값을 의미한다. 전체 데이터의 절반은 중앙값보다 작거나 같고, 나머지 절반은 중앙값보다 크거나 같다는 특징을 가진다.
중앙값은 평균값과 함께 데이터를 대표하는 값으로 사용되며, 특히 극단적인 값(이상치)의 영향을 덜 받는다는 장점이 있다. 예를 들어, 소득 분포와 같이 한쪽으로 치우쳐진 데이터의 경우 평균값보다 중앙값이 데이터를 더 잘 대표할 수 있다.
계산 방법
- 데이터의 개수가 홀수일 경우: 중앙에 위치하는 값이 중앙값이 된다. 예를 들어, 5개의 데이터 (1, 3, 6, 7, 10)에서 중앙값은 6이다.
- 데이터의 개수가 짝수일 경우: 중앙에 위치하는 두 값의 평균이 중앙값이 된다. 예를 들어, 6개의 데이터 (1, 3, 6, 7, 10, 12)에서 중앙값은 (6+7)/2 = 6.5이다.
활용
중앙값은 소득, 자산, 시험 점수 등 다양한 분야에서 데이터의 중심 경향을 파악하고 비교하는 데 활용된다. 또한, 이상치 탐지 및 데이터 분석 과정에서 중요한 역할을 수행한다. 예를 들어, 박스 플롯(box plot)은 중앙값을 포함한 사분위수를 시각적으로 표현하여 데이터의 분포를 쉽게 파악할 수 있도록 돕는다.
장점 및 단점
- 장점: 이상치의 영향을 적게 받으며, 직관적으로 이해하기 쉽다.
- 단점: 모든 데이터를 활용하지 않기 때문에 데이터의 전체적인 특성을 반영하지 못할 수 있다. 평균값과 달리, 중앙값은 추가적인 통계 분석에 직접적으로 활용되기 어려운 경우가 있다.