도수 분포(frequency distribution)는 통계학에서 관측값(또는 표본)들을 특정 구간(계급)이나 범주별로 구분하여 각 구간·범주에 속하는 관측값의 빈도(도수)를 정리한 표·그래프를 의미한다. 도수는 해당 구간·범주에 포함된 자료 개수이며, 이를 이용해 데이터의 분포 형태, 중앙경향성, 변동성 등을 파악할 수 있다.
정의
- 도수(frequency): 특정 구간·범주에 포함된 관측값의 개수.
- 도수 분포: 전체 자료를 하나 이상의 구간·범주로 나눈 뒤 각 구간·범주의 도수를 기록한 체계적인 배열.
주요 형태
| 형태 | 설명 |
|---|---|
| 표본 도수 분포표 | 구간·범주와 해당 도수를 행·열 형식으로 나열한 표. |
| 히스토그램 | 도수 분포표의 도수를 막대 그래프로 시각화한 것. 구간의 폭에 따라 막대의 너비가 결정된다. |
| 파이 차트(원형 그래프) | 범주형 자료의 도수를 비율로 표시하여 전체 대비 각 범주의 비중을 시각화한다. |
| 누적 도수 분포표 | 각 구간·범주까지의 도수를 누적 합산한 표. 누적 도수 또는 누적 상대도수를 포함한다. |
계산 방법
- 자료 범위 결정: 최소값·최대값을 확인한다.
- 구간(계급) 설정: 구간 수(k)와 구간 폭을 결정한다. 일반적으로 구간 수는
√n(n은 표본 크기) 또는 Sturges’ formula(k = 1 + log₂ n) 등을 이용해 추정한다. - 도수 계산: 각 구간에 속하는 자료 개수를 센다.
- 상대도수·비율: 도수를 표본 크기로 나누어 상대도수(또는 비율)를 구한다.
- 누적 도수: 앞 구간까지의 도수를 순차적으로 합산한다.
활용
- 데이터 탐색: 자료의 전반적 분포 특성을 파악하고 이상치·편향 등을 식별한다.
- 통계 모형 선택: 정규성 등 가정 검증을 위한 기초 자료로 활용된다.
- 품질 관리: 제조 공정에서 생산품 특성의 변동을 모니터링한다.
- 사회·경제 조사: 설문 응답, 인구 통계 등 범주형 데이터를 요약한다.
역사·어원
‘도수’는 한자어 「度數」에서 유래했으며, ‘분포’는 ‘분산·배치’를 뜻한다. 영어 frequency distribution를 번역한 용어로, 20세기 초 서구 통계학이 한국에 도입되면서 사용되기 시작하였다. 한국 통계학 교과서·전문서에서 일반적인 통계 용어로 자리 잡았다.
관련 용어
- 상대도수(relative frequency): 도수를 전체 표본 크기로 나눈 값.
- 누적 상대도수(cumulative relative frequency): 누적 도수를 전체 표본 크기로 나눈 값.
- 확률 분포(probability distribution): 전체 모집단에 대한 이론적 분포 개념.
- 히스토그램(histogram): 도수 분포를 시각화한 그래프.
참고 문헌
- 박성호, 김재현. 통계학 개론, 교보출판, 2015.
- 강정훈. 실용 통계학, 한빛미디어, 2018.
- 국제통계학회(International Statistical Institute) 통계 용어 사전.
(본 항목은 한국어 위키백과 스타일을 따르며, 확인된 통계학 자료에 근거하여 작성되었습니다.)