정규분포
정규분포(正規分布, Normal distribution)는 통계학에서 가장 널리 사용되는 확률 분포 중 하나로, 가우스 분포(Gaussian distribution)라고도 불린다. 종 모양의 대칭적인 형태를 가지며, 평균값을 중심으로 데이터가 집중되는 특징을 보인다.
개요
정규분포는 연속 확률 분포의 일종으로, 자연 현상이나 사회 현상에서 발생하는 많은 데이터들이 정규분포에 근사하는 경향을 보인다. 예를 들어, 사람들의 키, 몸무게, 시험 점수, 오차 측정 등 다양한 분야에서 관찰될 수 있다. 중심극한정리에 의해, 독립적인 확률 변수들의 합은 특정한 조건 하에서 정규분포에 가까워지는 성질을 가지고 있다.
특징
-
종 모양: 그래프가 종 모양의 형태를 띤다.
-
대칭성: 평균값을 기준으로 좌우 대칭이다. 즉, 평균을 중심으로 양쪽의 데이터 분포가 동일하다.
-
평균, 중앙값, 최빈값 일치: 평균, 중앙값, 최빈값이 모두 같은 값을 가진다.
-
확률 밀도 함수: 정규분포의 확률 밀도 함수는 다음과 같은 식으로 표현된다.
$$f(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2}$$
여기서, $\mu$는 평균, $\sigma$는 표준편차, $e$는 자연 상수(약 2.71828), $\pi$는 원주율(약 3.14159)이다.
-
68-95-99.7 규칙: 정규분포에서 평균으로부터 1 표준편차 범위 내에 약 68%의 데이터가, 2 표준편차 범위 내에 약 95%의 데이터가, 3 표준편차 범위 내에 약 99.7%의 데이터가 존재한다.
표준 정규 분포
평균이 0이고 표준편차가 1인 정규분포를 표준 정규 분포(Standard Normal distribution)라고 한다. 표준 정규 분포는 모든 정규 분포를 표준화하여 비교하거나 계산하는 데 사용된다. 표준화는 다음과 같은 식으로 수행된다.
$$Z = \frac{X - \mu}{\sigma}$$
여기서, X는 원래 데이터 값, $\mu$는 평균, $\sigma$는 표준편차, Z는 표준화된 값(Z-score)이다.
활용
정규분포는 통계적 추론, 가설 검정, 회귀 분석 등 다양한 통계 분석에서 핵심적인 역할을 한다. 또한, 머신러닝 분야에서도 데이터 분석, 모델링, 예측 등에 널리 활용된다. 예를 들어, 이상 탐지(Anomaly detection), 분류(Classification), 회귀(Regression) 등의 문제에서 정규분포를 기반으로 한 다양한 알고리즘들이 사용된다.