최빈값(最頻值, mode)은 통계학 및 자료 분석에서 주어진 데이터 집합이나 확률분포에서 가장 빈번하게 나타나는 값(또는 값들의 집합)을 의미한다. 최빈값은 평균(mean)·중앙값(median)과 함께 자료의 중심 경향을 나타내는 대표값 중 하나이며, 특히 데이터가 비대칭이거나 첨도(꼬리) 구조가 뚜렷할 때 평균보다 실제 데이터의 특성을 더 잘 반영할 수 있다.
정의 및 성질
| 구분 | 내용 |
|---|---|
| 정의 | 관측값이 가장 많이 나타나는 값. 동일한 빈도수를 가진 관측값이 여러 개 존재할 경우, 그 모두를 최빈값이라 부한다(다중 최빈값). |
| 표기 | 보통 $ \operatorname{mode}(X) $ 혹은 $ \text{최빈값} $ 로 표기한다. |
| 유일성 | 데이터가 단일 최빈값인 경우는 하나, 다중 최빈값(bimodal, trimodal 등)인 경우는 두 개 이상이 존재한다. |
| 연속형 vs 이산형 | - 이산형 데이터: 관측치의 빈도를 셈으로써 직접 최빈값을 구한다. - 연속형 데이터: 히스토그램·밀도 추정 등을 이용해 구간별 빈도를 비교하거나, 커널 밀도 추정(KDE)으로 최고점(peak)을 찾아 정의한다. |
| 불연속성 | 평균·중앙값과 달리 최빈값은 데이터에 작은 변동이 있어도 급격히 변할 수 있다(예: 데이터에 하나의 이상치가 추가될 경우 최빈값이 바뀔 가능성이 높음). |
| 관계 | - 정규분포(N(μ,σ²))에서는 평균=중앙값=최빈값=μ. - 왜도(skewness)가 큰 분포에서는 평균·중앙값·최빈값이 서로 다른 값을 갖는다. |
계산 방법
-
이산형 데이터
- 각 관측값의 빈도수(frequency)를 세고, 가장 큰 빈도수를 가진 값들을 선택한다.
- 동률이 존재하면 다중 최빈값으로 표시한다.
-
연속형 데이터
- 히스토그램 방식: 데이터 범위를 일정 간격(bin)으로 나누고, 가장 빈도가 높은 구간의 중앙값을 최빈값으로 추정한다.
- 커널 밀도 추정(KDE): 커널 함수를 이용해 연속적인 확률밀도함수를 추정하고, 그 함수의 최고점(peak) 위치를 최빈값으로 정의한다.
- 분포 모수 이용: 특정 연속분포(예: 지수분포, 포아송분포 등)의 경우, 모수식으로 최빈값을 직접 구한다.
예시
| 데이터 집합 | 빈도수 | 최빈값 |
|---|---|---|
| 2, 3, 3, 4, 5, 5, 5, 6 | 2(1회), 3(2회), 4(1회), 5(3회), 6(1회) | 5 |
| 1, 2, 2, 3, 3, 4 | 1(1회), 2(2회), 3(2회), 4(1회) | 2, 3 (다중 최빈값) |
| 연속형 데이터(키) | 히스토그램(구간: 160‑165 cm 빈도 12, 165‑170 cm 빈도 20, 170‑175 cm 빈도 20, 175‑180 cm 빈도 8) | 165‑170 cm 구간(또는 해당 구간 중앙값 167.5 cm) |
활용 분야
- 품질 관리: 제조 공정에서 가장 흔히 발생하는 결함 유형을 파악하여 개선 방향을 설정한다.
- 마케팅: 소비자 구매 행태에서 가장 많이 선택되는 제품·가격대를 파악한다.
- 자연 과학: 동물 행동·식물 분포 등에서 가장 빈번하게 관찰되는 현상을 기술한다.
- 의료 통계: 환자 증상·진단 코드 중 가장 흔한 경우를 식별한다.
- 머신러닝: 분류 문제에서 라벨이 가장 많이 나타나는 클래스를 기준으로 베이스라인 모델을 구성한다(예: 다중 클래스 불균형 문제에서 “most frequent class” 전략).
장점과 한계
| 장점 | 한계 |
|---|---|
| - 직관성: 데이터에서 가장 흔한 현상을 직접적으로 보여준다. - 극단값(Outlier) 영향이 없음: 평균과 다르게 이상치에 민감하지 않다. |
- 불연속성: 작은 데이터 변동에 따라 최빈값이 크게 변할 수 있다. - 다중 최빈값 존재: 해석이 복잡해질 수 있다. - 연속형 데이터에서 정의가 모호: 히스토그램 구간 설정 등에 따라 결과가 달라진다. |
관련 개념
| 용어 | 설명 |
|---|---|
| 평균(mean) | 모든 관측값의 합을 관측값 수로 나눈 값. 전체 데이터에 대한 균형을 나타낸다. |
| 중앙값(median) | 데이터를 크기순으로 정렬했을 때 중간에 위치하는 값. 데이터의 50%가 이 값 이하, 50%가 이 값 이상이다. |
| 분산(variance), 표준편차(standard deviation) | 데이터가 평균으로부터 얼마나 흩어져 있는지를 측정한다. |
| 왜도(skewness) | 분포의 비대칭 정도를 나타낸다. 양의 왜도는 오른쪽 꼬리가 길고, 음의 왜도는 왼쪽 꼬리가 길다. |
| 첨도(kurtosis) | 분포의 꼬리 두께와 피크 정도를 나타낸다. 높은 첨도는 뾰족하고 꼬리가 두꺼운 형태를 의미한다. |
참고 문헌 및 출처
- 다이아몬드, C., Statistics and Probability with Applications, 2nd ed., Springer, 2021.
- 김진우, “통계학 개론”, 한국통계학회, 2019.
- Wikipedia contributors, “Mode (statistics)”, Wikipedia, The Free Encyclopedia, accessed Feb 2026.
- Silverman, B. W., Density Estimation for Statistics and Data Analysis, Chapman & Hall, 1986.
이 항목은 최빈값에 대한 기본 정의와 주요 특성, 계산 방법, 활용 사례 등을 종합적으로 제공함으로써 백과사전 수준의 정보를 목표로 작성되었습니다.