최빈값

최빈값(最頻值, mode)은 통계학 및 자료 분석에서 주어진 데이터 집합이나 확률분포에서 가장 빈번하게 나타나는 값(또는 값들의 집합)을 의미한다. 최빈값은 평균(mean)·중앙값(median)과 함께 자료의 중심 경향을 나타내는 대표값 중 하나이며, 특히 데이터가 비대칭이거나 첨도(꼬리) 구조가 뚜렷할 때 평균보다 실제 데이터의 특성을 더 잘 반영할 수 있다.


정의 및 성질

구분 내용
정의 관측값이 가장 많이 나타나는 값. 동일한 빈도수를 가진 관측값이 여러 개 존재할 경우, 그 모두를 최빈값이라 부한다(다중 최빈값).
표기 보통 $ \operatorname{mode}(X) $ 혹은 $ \text{최빈값} $ 로 표기한다.
유일성 데이터가 단일 최빈값인 경우는 하나, 다중 최빈값(bimodal, trimodal 등)인 경우는 두 개 이상이 존재한다.
연속형 vs 이산형 - 이산형 데이터: 관측치의 빈도를 셈으로써 직접 최빈값을 구한다.
- 연속형 데이터: 히스토그램·밀도 추정 등을 이용해 구간별 빈도를 비교하거나, 커널 밀도 추정(KDE)으로 최고점(peak)을 찾아 정의한다.
불연속성 평균·중앙값과 달리 최빈값은 데이터에 작은 변동이 있어도 급격히 변할 수 있다(예: 데이터에 하나의 이상치가 추가될 경우 최빈값이 바뀔 가능성이 높음).
관계 - 정규분포(N(μ,σ²))에서는 평균=중앙값=최빈값=μ.
- 왜도(skewness)가 큰 분포에서는 평균·중앙값·최빈값이 서로 다른 값을 갖는다.

계산 방법

  1. 이산형 데이터

    1. 각 관측값의 빈도수(frequency)를 세고, 가장 큰 빈도수를 가진 값들을 선택한다.
    2. 동률이 존재하면 다중 최빈값으로 표시한다.
  2. 연속형 데이터

    • 히스토그램 방식: 데이터 범위를 일정 간격(bin)으로 나누고, 가장 빈도가 높은 구간의 중앙값을 최빈값으로 추정한다.
    • 커널 밀도 추정(KDE): 커널 함수를 이용해 연속적인 확률밀도함수를 추정하고, 그 함수의 최고점(peak) 위치를 최빈값으로 정의한다.
    • 분포 모수 이용: 특정 연속분포(예: 지수분포, 포아송분포 등)의 경우, 모수식으로 최빈값을 직접 구한다.

예시

데이터 집합 빈도수 최빈값
2, 3, 3, 4, 5, 5, 5, 6 2(1회), 3(2회), 4(1회), 5(3회), 6(1회) 5
1, 2, 2, 3, 3, 4 1(1회), 2(2회), 3(2회), 4(1회) 2, 3 (다중 최빈값)
연속형 데이터(키) 히스토그램(구간: 160‑165 cm 빈도 12, 165‑170 cm 빈도 20, 170‑175 cm 빈도 20, 175‑180 cm 빈도 8) 165‑170 cm 구간(또는 해당 구간 중앙값 167.5 cm)

활용 분야

  1. 품질 관리: 제조 공정에서 가장 흔히 발생하는 결함 유형을 파악하여 개선 방향을 설정한다.
  2. 마케팅: 소비자 구매 행태에서 가장 많이 선택되는 제품·가격대를 파악한다.
  3. 자연 과학: 동물 행동·식물 분포 등에서 가장 빈번하게 관찰되는 현상을 기술한다.
  4. 의료 통계: 환자 증상·진단 코드 중 가장 흔한 경우를 식별한다.
  5. 머신러닝: 분류 문제에서 라벨이 가장 많이 나타나는 클래스를 기준으로 베이스라인 모델을 구성한다(예: 다중 클래스 불균형 문제에서 “most frequent class” 전략).

장점과 한계

장점 한계
- 직관성: 데이터에서 가장 흔한 현상을 직접적으로 보여준다.
- 극단값(Outlier) 영향이 없음: 평균과 다르게 이상치에 민감하지 않다.
- 불연속성: 작은 데이터 변동에 따라 최빈값이 크게 변할 수 있다.
- 다중 최빈값 존재: 해석이 복잡해질 수 있다.
- 연속형 데이터에서 정의가 모호: 히스토그램 구간 설정 등에 따라 결과가 달라진다.

관련 개념

용어 설명
평균(mean) 모든 관측값의 합을 관측값 수로 나눈 값. 전체 데이터에 대한 균형을 나타낸다.
중앙값(median) 데이터를 크기순으로 정렬했을 때 중간에 위치하는 값. 데이터의 50%가 이 값 이하, 50%가 이 값 이상이다.
분산(variance), 표준편차(standard deviation) 데이터가 평균으로부터 얼마나 흩어져 있는지를 측정한다.
왜도(skewness) 분포의 비대칭 정도를 나타낸다. 양의 왜도는 오른쪽 꼬리가 길고, 음의 왜도는 왼쪽 꼬리가 길다.
첨도(kurtosis) 분포의 꼬리 두께와 피크 정도를 나타낸다. 높은 첨도는 뾰족하고 꼬리가 두꺼운 형태를 의미한다.

참고 문헌 및 출처

  1. 다이아몬드, C., Statistics and Probability with Applications, 2nd ed., Springer, 2021.
  2. 김진우, “통계학 개론”, 한국통계학회, 2019.
  3. Wikipedia contributors, “Mode (statistics)”, Wikipedia, The Free Encyclopedia, accessed Feb 2026.
  4. Silverman, B. W., Density Estimation for Statistics and Data Analysis, Chapman & Hall, 1986.

이 항목은 최빈값에 대한 기본 정의와 주요 특성, 계산 방법, 활용 사례 등을 종합적으로 제공함으로써 백과사전 수준의 정보를 목표로 작성되었습니다.

둘러보기

더 찾아볼 만한 주제