커널 밀도 추정
커널 밀도 추정(Kernel Density Estimation, KDE)은 비모수적 방법을 사용하여 확률 변수의 확률 밀도 함수를 추정하는 통계적 방법이다. 데이터 점의 분포를 부드러운 곡선으로 나타내어, 데이터의 기본적인 확률 분포를 시각화하고 추정하는 데 유용하다. 특정 분포를 가정하지 않고 데이터 자체에서 밀도 함수를 추정하기 때문에, 다양한 형태의 데이터에 적용 가능하다는 장점이 있다.
방법
KDE는 데이터 점 주변에 커널이라 불리는 작은 확률 분포를 배치하여 밀도를 추정한다. 각 데이터 점은 하나의 커널의 중심이 되고, 커널의 모양과 크기(대역폭, bandwidth)는 추정된 밀도 함수의 부드러움과 정확성에 영향을 미친다. 모든 커널의 합이 최종적인 밀도 추정치가 된다. 커널로는 가우시안 커널(Gaussian kernel)이 가장 흔하게 사용되지만, 다른 종류의 커널도 사용 가능하다. 대역폭은 매우 중요한 매개변수로, 대역폭이 너무 작으면 추정된 밀도가 요철이 심하고 과적합(overfitting)될 수 있으며, 너무 크면 중요한 세부 정보가 손실되고 과소적합(underfitting)될 수 있다. 최적의 대역폭을 선택하는 것은 KDE에서 중요한 문제이며, 여러 가지 대역폭 선택 방법이 존재한다.
장점
- 비모수적 방법: 특정 확률 분포를 가정할 필요가 없다.
- 다양한 데이터 유형에 적용 가능: 복잡한 형태의 데이터 분포에도 잘 적용된다.
- 밀도 함수의 시각화: 데이터의 분포를 부드러운 곡선으로 시각화하여 이해를 돕는다.
단점
- 계산 비용: 많은 데이터 점이 있는 경우 계산 비용이 높아질 수 있다.
- 대역폭 선택: 최적의 대역폭을 선택하는 것이 어렵고, 선택에 따라 결과가 크게 달라질 수 있다.
- 경계 효과: 데이터의 경계 부근에서는 추정된 밀도가 정확하지 않을 수 있다.
응용 분야
KDE는 다양한 분야에서 활용된다. 예를 들어, 데이터 시각화, 확률 밀도 함수 추정, 비모수적 통계 검정, 기계 학습 등에서 사용된다.