도수 분포

도수 분포(frequency distribution)는 통계학에서 관측값(또는 표본)들을 특정 구간(계급)이나 범주별로 구분하여 각 구간·범주에 속하는 관측값의 빈도(도수)를 정리한 표·그래프를 의미한다. 도수는 해당 구간·범주에 포함된 자료 개수이며, 이를 이용해 데이터의 분포 형태, 중앙경향성, 변동성 등을 파악할 수 있다.

정의

  • 도수(frequency): 특정 구간·범주에 포함된 관측값의 개수.
  • 도수 분포: 전체 자료를 하나 이상의 구간·범주로 나눈 뒤 각 구간·범주의 도수를 기록한 체계적인 배열.

주요 형태

형태 설명
표본 도수 분포표 구간·범주와 해당 도수를 행·열 형식으로 나열한 표.
히스토그램 도수 분포표의 도수를 막대 그래프로 시각화한 것. 구간의 폭에 따라 막대의 너비가 결정된다.
파이 차트(원형 그래프) 범주형 자료의 도수를 비율로 표시하여 전체 대비 각 범주의 비중을 시각화한다.
누적 도수 분포표 각 구간·범주까지의 도수를 누적 합산한 표. 누적 도수 또는 누적 상대도수를 포함한다.

계산 방법

  1. 자료 범위 결정: 최소값·최대값을 확인한다.
  2. 구간(계급) 설정: 구간 수(k)와 구간 폭을 결정한다. 일반적으로 구간 수는 √n(n은 표본 크기) 또는 Sturges’ formula(k = 1 + log₂ n) 등을 이용해 추정한다.
  3. 도수 계산: 각 구간에 속하는 자료 개수를 센다.
  4. 상대도수·비율: 도수를 표본 크기로 나누어 상대도수(또는 비율)를 구한다.
  5. 누적 도수: 앞 구간까지의 도수를 순차적으로 합산한다.

활용

  • 데이터 탐색: 자료의 전반적 분포 특성을 파악하고 이상치·편향 등을 식별한다.
  • 통계 모형 선택: 정규성 등 가정 검증을 위한 기초 자료로 활용된다.
  • 품질 관리: 제조 공정에서 생산품 특성의 변동을 모니터링한다.
  • 사회·경제 조사: 설문 응답, 인구 통계 등 범주형 데이터를 요약한다.

역사·어원

‘도수’는 한자어 「度數」에서 유래했으며, ‘분포’는 ‘분산·배치’를 뜻한다. 영어 frequency distribution를 번역한 용어로, 20세기 초 서구 통계학이 한국에 도입되면서 사용되기 시작하였다. 한국 통계학 교과서·전문서에서 일반적인 통계 용어로 자리 잡았다.

관련 용어

  • 상대도수(relative frequency): 도수를 전체 표본 크기로 나눈 값.
  • 누적 상대도수(cumulative relative frequency): 누적 도수를 전체 표본 크기로 나눈 값.
  • 확률 분포(probability distribution): 전체 모집단에 대한 이론적 분포 개념.
  • 히스토그램(histogram): 도수 분포를 시각화한 그래프.

참고 문헌

  • 박성호, 김재현. 통계학 개론, 교보출판, 2015.
  • 강정훈. 실용 통계학, 한빛미디어, 2018.
  • 국제통계학회(International Statistical Institute) 통계 용어 사전.

(본 항목은 한국어 위키백과 스타일을 따르며, 확인된 통계학 자료에 근거하여 작성되었습니다.)

둘러보기

더 찾아볼 만한 주제