KL divergence(Kullback–Leibler divergence, 줄여서 KL 발산)은 확률 분포 $P$와 $Q$ 사이의 차이를 측정하는 비대칭적 정보 이론적 거리(metric)이다. 정확히는 두 확률 분포가 정의된 확률 변수 $X$에 대해 다음과 같이 정의된다.
$$ D_{\mathrm{KL}}(P|Q)=\sum_{x\in\mathcal{X}} P(x)\log\frac{P(x)}{Q(x)} \quad (\text{이산형}) $$
$$ D_{\mathrm{KL}}(P|Q)=\int_{\mathcal{X}} p(x)\log\frac{p(x)}{q(x)},dx \quad (\text{연속형}) $$
여기서 $p(x)$와 $q(x)$는 각각 $P$와 $Q$의 확률 밀도 함수(또는 질량 함수)이며, 로그는 보통 밑이 2인 비트(bit) 단위 또는 자연 로그를 사용한다.
주요 특성
- 비대칭성: 일반적으로 $D_{\mathrm{KL}}(P|Q) eq D_{\mathrm{KL}}(Q|P)$이다. 따라서 거리(metric)라기보다는 “다이버전스(divergence)”라는 용어가 사용된다.
- 비음성: $D_{\mathrm{KL}}(P|Q) \ge 0$이며, 등호는 $P=Q$ (거의 확실히 동일)일 때만 성립한다. 이는 Gibbs' inequality에 의해 증명된다.
- 정보량 해석: $D_{\mathrm{KL}}(P|Q)$는 실제 분포 $P$에 따라 샘플을 관찰했을 때, 잘못된 모델 $Q$를 사용함으로써 발생하는 추가적인 기대 코딩 길이(추가 비트 수)로 해석된다.
역사 및 어원
KL 발산은 Solomon Kullback와 Richard Leibler가 1951년에 발표한 논문 “On Information and Sufficiency”에서 처음 제시하였다. 두 연구자는 통계적 추정과 정보 이론의 관점에서 두 확률 분포 간의 차이를 정량화하고자 하였으며, 그 결과가 현재 KL divergence로 알려져 있다.
응용 분야
- 통계학·머신러닝
- 최대우도 추정(Maximum Likelihood Estimation): 로그우도 함수는 KL divergence와 상수 차이만을 갖는다.
- 변분 추정(Variational Inference): 복잡한 사후 분포를 근사하기 위해 KL divergence를 최소화한다.
- 머신러닝 모델 학습: 교차 엔트로피 손실은 실제 레이블 분포와 모델 출력 분포 사이의 KL divergence와 동치이다.
- 신호 처리·통신
- 채널 코딩: 채널의 실제 출력 분포와 가상 출력 분포 간 차이를 평가한다.
- 생물정보학·유전체 분석
- 서열 프로파일 간 차이 측정, 클러스터링 등에 사용된다.
- 경제·금융
- 확률적 위험 모델 간 차이 평가, 포트폴리오 최적화 과정에서 활용된다.
관계와 변형
- Jensen–Shannon divergence(JSD)는 $D_{\mathrm{KL}}$를 대칭화한 형태이며, 두 분포의 평균을 기준으로 각각의 KL divergence를 평균낸 값이다.
- 베르누이·가우시안 KL divergence: 특정 형태의 확률 분포(예: 베르누이, 다변량 정규 분포) 사이에서는 닫힌 형태의 식이 존재한다.
- 정보 게인(Information Gain): 의사결정 트리에서 특성 선택 기준으로 사용되는 정보 이득은 부모-자식 노드 간 KL divergence와 동등하다.
수학적 성질
- 연속성: $P$가 $Q$에 절대 연속(즉, $Q(x)=0 \Rightarrow P(x)=0$)일 경우에만 KL divergence가 유한하게 정의된다.
- 합성: 독립적인 확률 변수들의 결합분포에 대해 KL divergence는 각 변수에 대한 KL divergence의 합으로 분해된다.
- 편미분: 파라미터 $\theta$에 대한 KL divergence의 그라디언트는 변분 방법 및 확률적 최적화 알고리즘에서 핵심적인 역할을 한다.
참고 문헌
- Kullback, S.; Leibler, R. A. (1951). “On Information and Sufficiency”. The Annals of Mathematical Statistics. 22 (1): 79–86.
- Cover, Thomas M.; Thomas, Joy A. (2006). Elements of Information Theory (2nd ed.). Wiley.
- Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning. Springer.
(※ 위 내용은 공개된 학술 자료와 교과서에 근거한 객관적 설명이며, 최신 연구 동향에 대한 상세 내용은 별도 전문 문헌을 참조한다.)