평균
평균(平均)은 여러 개의 수치 데이터 집합에서 중심 경향성을 나타내는 대표값이다. 데이터 집합의 모든 값을 합한 후, 데이터의 개수로 나누어 계산한다. 평균은 데이터 집합의 전반적인 크기를 파악하는 데 유용하며, 통계학, 물리학, 공학 등 다양한 분야에서 널리 사용된다. 단순히 모든 값의 산술 평균을 의미하는 경우가 많지만, 자료의 특성에 따라 다양한 종류의 평균이 존재한다.
종류:
-
산술 평균 (Arithmetic Mean): 가장 일반적인 평균으로, 모든 값을 더한 후 데이터 개수로 나눈 값이다. 예를 들어, 1, 2, 3, 4, 5의 산술 평균은 (1+2+3+4+5)/5 = 3이다. 극단값(outlier)의 영향을 크게 받는다는 단점이 있다.
-
기하 평균 (Geometric Mean): 양수 데이터의 곱의 n제곱근으로 계산된다. 비율이나 백분율 데이터에 적합하며, 산술 평균보다 극단값의 영향을 덜 받는다. n개의 양수 x₁, x₂, ..., xₙ 의 기하 평균은 (x₁ * x₂ * ... * xₙ)^(1/n) 이다.
-
조화 평균 (Harmonic Mean): 역수의 산술 평균의 역수로 계산된다. 속도나 비율과 같이 역수 관계에 있는 데이터에 적합하다. n개의 양수 x₁, x₂, ..., xₙ 의 조화 평균은 n / (1/x₁ + 1/x₂ + ... + 1/xₙ) 이다.
-
중앙값 (Median): 데이터를 크기 순서대로 정렬했을 때, 중앙에 위치하는 값이다. 데이터 개수가 짝수일 경우, 중앙에 위치한 두 값의 평균을 사용한다. 극단값의 영향을 덜 받는다는 장점이 있다.
-
최빈값 (Mode): 데이터 집합에서 가장 자주 나타나는 값이다. 다중 최빈값을 가질 수도 있고, 최빈값이 없는 경우도 있다.
한계:
평균은 데이터의 전반적인 경향을 보여주는 유용한 지표이지만, 데이터의 분포가 비대칭적이거나 극단값이 존재하는 경우에는 데이터의 특성을 제대로 반영하지 못할 수 있다. 따라서 평균과 함께 분산, 표준편차 등 다른 통계량을 함께 고려하는 것이 중요하다. 평균만으로는 데이터의 전체적인 그림을 완벽하게 이해할 수 없다는 점을 유의해야 한다.