KL divergence

KL divergence(Kullback–Leibler divergence, 줄여서 KL 발산)은 확률 분포 $P$와 $Q$ 사이의 차이를 측정하는 비대칭적 정보 이론적 거리(metric)이다. 정확히는 두 확률 분포가 정의된 확률 변수 $X$에 대해 다음과 같이 정의된다.

$$ D_{\mathrm{KL}}(P|Q)=\sum_{x\in\mathcal{X}} P(x)\log\frac{P(x)}{Q(x)} \quad (\text{이산형}) $$

$$ D_{\mathrm{KL}}(P|Q)=\int_{\mathcal{X}} p(x)\log\frac{p(x)}{q(x)},dx \quad (\text{연속형}) $$

여기서 $p(x)$와 $q(x)$는 각각 $P$와 $Q$의 확률 밀도 함수(또는 질량 함수)이며, 로그는 보통 밑이 2인 비트(bit) 단위 또는 자연 로그를 사용한다.

주요 특성

  • 비대칭성: 일반적으로 $D_{\mathrm{KL}}(P|Q) eq D_{\mathrm{KL}}(Q|P)$이다. 따라서 거리(metric)라기보다는 “다이버전스(divergence)”라는 용어가 사용된다.
  • 비음성: $D_{\mathrm{KL}}(P|Q) \ge 0$이며, 등호는 $P=Q$ (거의 확실히 동일)일 때만 성립한다. 이는 Gibbs' inequality에 의해 증명된다.
  • 정보량 해석: $D_{\mathrm{KL}}(P|Q)$는 실제 분포 $P$에 따라 샘플을 관찰했을 때, 잘못된 모델 $Q$를 사용함으로써 발생하는 추가적인 기대 코딩 길이(추가 비트 수)로 해석된다.

역사 및 어원

KL 발산은 Solomon KullbackRichard Leibler가 1951년에 발표한 논문 “On Information and Sufficiency”에서 처음 제시하였다. 두 연구자는 통계적 추정과 정보 이론의 관점에서 두 확률 분포 간의 차이를 정량화하고자 하였으며, 그 결과가 현재 KL divergence로 알려져 있다.

응용 분야

  1. 통계학·머신러닝
    • 최대우도 추정(Maximum Likelihood Estimation): 로그우도 함수는 KL divergence와 상수 차이만을 갖는다.
    • 변분 추정(Variational Inference): 복잡한 사후 분포를 근사하기 위해 KL divergence를 최소화한다.
    • 머신러닝 모델 학습: 교차 엔트로피 손실은 실제 레이블 분포와 모델 출력 분포 사이의 KL divergence와 동치이다.
  2. 신호 처리·통신
    • 채널 코딩: 채널의 실제 출력 분포와 가상 출력 분포 간 차이를 평가한다.
  3. 생물정보학·유전체 분석
    • 서열 프로파일 간 차이 측정, 클러스터링 등에 사용된다.
  4. 경제·금융
    • 확률적 위험 모델 간 차이 평가, 포트폴리오 최적화 과정에서 활용된다.

관계와 변형

  • Jensen–Shannon divergence(JSD)는 $D_{\mathrm{KL}}$를 대칭화한 형태이며, 두 분포의 평균을 기준으로 각각의 KL divergence를 평균낸 값이다.
  • 베르누이·가우시안 KL divergence: 특정 형태의 확률 분포(예: 베르누이, 다변량 정규 분포) 사이에서는 닫힌 형태의 식이 존재한다.
  • 정보 게인(Information Gain): 의사결정 트리에서 특성 선택 기준으로 사용되는 정보 이득은 부모-자식 노드 간 KL divergence와 동등하다.

수학적 성질

  • 연속성: $P$가 $Q$에 절대 연속(즉, $Q(x)=0 \Rightarrow P(x)=0$)일 경우에만 KL divergence가 유한하게 정의된다.
  • 합성: 독립적인 확률 변수들의 결합분포에 대해 KL divergence는 각 변수에 대한 KL divergence의 합으로 분해된다.
  • 편미분: 파라미터 $\theta$에 대한 KL divergence의 그라디언트는 변분 방법 및 확률적 최적화 알고리즘에서 핵심적인 역할을 한다.

참고 문헌

  • Kullback, S.; Leibler, R. A. (1951). “On Information and Sufficiency”. The Annals of Mathematical Statistics. 22 (1): 79–86.
  • Cover, Thomas M.; Thomas, Joy A. (2006). Elements of Information Theory (2nd ed.). Wiley.
  • Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning. Springer.

(※ 위 내용은 공개된 학술 자료와 교과서에 근거한 객관적 설명이며, 최신 연구 동향에 대한 상세 내용은 별도 전문 문헌을 참조한다.)

둘러보기

더 찾아볼 만한 주제