교차 엔트로피

교차 엔트로피

교차 엔트로피

교차 엔트로피(Cross‑entropy)는 정보 이론 및 통계학, 머신러닝 분야에서 두 확률 분포 사이의 차이를 측정하는 함수이다. 특히, 실제 분포 $p$와 모델이 예측한 분포 $q$ 사이의 차이를 정량화함으로써 모델 학습에서 손실 함수로 자주 사용된다.

정의

두 이산 확률 분포 $p$와 $q$가 동일한 표본 공간 $\mathcal{X}$ 위에 정의되었을 때, 교차 엔트로피 $H(p, q)$는 다음과 같이 정의된다.

$$ H(p, q) = - \sum_{x \in \mathcal{X}} p(x) \log q(x) $$

연속형 경우에는 적분 형태로 정의된다.

정보 이론에서의 의미

  • 엔트로피 $H(p) = -\sum_x p(x)\log p(x)$는 하나의 분포만을 고려한 평균 정보량이다.
  • KL 발산 $D_{\mathrm{KL}}(p|q) = \sum_x p(x)\log\frac{p(x)}{q(x)}$는 두 분포 사이의 비대칭적 “거리”를 나타낸다.
  • 교차 엔트로피는 이 두 개념과 다음 관계를 가진다.

$$ H(p, q) = H(p) + D_{\mathrm{KL}}(p|q) $$

즉, 교차 엔트로피는 실제 엔트로피에 KL 발산을 더한 값으로, 모델 $q$가 실제 분포 $p$와 얼마나 차이가 나는지를 나타낸다.

머신러닝에서의 활용

1. 분류 문제

다중 클래스 분류에서 소프트맥스 출력을 갖는 신경망은 각 클래스에 대한 확률 $q_i$를 제공한다. 정답 레이블은 원-핫 인코딩된 분포 $p$로 표현되며, 손실 함수로 교차 엔트로피를 사용한다.

$$ \mathcal{L}{\text{CE}} = -\sum{i=1}^{C} p_i \log q_i $$

여기서 $C$는 클래스 개수이다. 정답이 한 클래스로 한정된 경우, 위 식은 $-\log q_{y}$ 형태(정답 클래스 $y$에 대한 로그 확률)로 간단히 표현된다.

2. 회귀·확률 모델

베르누이, 다항, 가우시안 등 특정 확률 모델을 가정한 경우에도 그에 맞는 교차 엔트로피 형태(예: 베르누이 교차 엔트로피, 가우시안 로그우도)가 손실 함수로 쓰인다.

3. 정규화와 최적화

교차 엔트로피는 미분 가능하고, 경사 하강법 등 최적화 알고리즘에 바로 사용할 수 있다. 또한, 소프트맥스와 결합된 형태는 수치적 안정성을 위해 로그-소프트맥스(log‑softmax) 형태로 구현되기도 한다.

관련 개념

용어 정의 관계
엔트로피(Entropy) 단일 확률 분포의 평균 정보량 $H(p) = H(p, p)$
KL 발산(Kullback–Leibler divergence) 두 분포 사이의 비대칭 차이 $D_{\mathrm{KL}}(p|q) = H(p, q) - H(p)$
로그 우도(Log‑likelihood) 관측 데이터가 모델에 의해 생성될 확률의 로그 교차 엔트로피는 로그 우도의 부정값에 해당 (데이터가 실제 분포라 가정)

참고 문헌

  1. Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory. Wiley.
  2. Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
  3. Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.

이 문서는 2024년 기준의 교차 엔트로피에 대한 일반적인 이해를 바탕으로 작성되었습니다.

둘러보기

더 찾아볼 만한 주제