산포
산포 (散布)는 통계학에서 자료들이 흩어져 있는 정도를 나타내는 개념이다. 자료의 중심 위치로부터 각 자료들이 얼마나 떨어져 있는지를 측정하며, 산포도가 클수록 자료들이 넓게 흩어져 있고, 작을수록 자료들이 중심 위치에 밀집되어 있음을 의미한다.
산포의 측정 방법
산포도를 측정하는 방법에는 여러 가지가 있으며, 대표적인 방법은 다음과 같다.
-
범위 (Range): 자료의 최댓값에서 최솟값을 뺀 값이다. 계산이 간단하지만, 극단값에 민감하다는 단점이 있다.
-
사분위수 범위 (Interquartile Range, IQR): 제3사분위수에서 제1사분위수를 뺀 값이다. 범위와 마찬가지로 계산이 비교적 간단하며, 극단값의 영향을 덜 받는다.
-
분산 (Variance): 각 자료값에서 평균을 뺀 값을 제곱하여 모두 더한 후, 자료의 개수(또는 자유도)로 나눈 값이다. 자료 전체의 정보를 활용하므로 산포도를 가장 잘 나타내는 지표 중 하나이지만, 제곱을 사용하므로 단위가 원래 자료와 달라진다는 단점이 있다.
-
표준편차 (Standard Deviation): 분산의 제곱근이다. 분산의 단위를 원래 자료의 단위와 같게 만들어 해석을 용이하게 해준다.
-
변동계수 (Coefficient of Variation, CV): 표준편차를 평균으로 나눈 값이다. 서로 다른 자료 집단의 산포도를 비교할 때 유용하게 사용된다. 평균의 크기에 따른 영향을 제거하여 상대적인 산포도를 나타내기 때문이다.
산포도의 활용
산포도는 자료의 특성을 파악하고 분석하는 데 중요한 역할을 한다. 예를 들어, 주식 투자를 할 때 변동성이 큰 종목은 위험이 높고, 변동성이 작은 종목은 위험이 낮다고 판단할 수 있다. 또한, 품질 관리 분야에서는 제품의 품질이 얼마나 균일한지를 판단하는 데 사용될 수 있다. 산포도가 크면 품질의 편차가 크다는 의미이고, 작으면 품질이 비교적 균일하다는 의미이다.