교차 엔트로피
교차 엔트로피
교차 엔트로피(Cross‑entropy)는 정보 이론 및 통계학, 머신러닝 분야에서 두 확률 분포 사이의 차이를 측정하는 함수이다. 특히, 실제 분포 $p$와 모델이 예측한 분포 $q$ 사이의 차이를 정량화함으로써 모델 학습에서 손실 함수로 자주 사용된다.
정의
두 이산 확률 분포 $p$와 $q$가 동일한 표본 공간 $\mathcal{X}$ 위에 정의되었을 때, 교차 엔트로피 $H(p, q)$는 다음과 같이 정의된다.
$$ H(p, q) = - \sum_{x \in \mathcal{X}} p(x) \log q(x) $$
연속형 경우에는 적분 형태로 정의된다.
정보 이론에서의 의미
- 엔트로피 $H(p) = -\sum_x p(x)\log p(x)$는 하나의 분포만을 고려한 평균 정보량이다.
- KL 발산 $D_{\mathrm{KL}}(p|q) = \sum_x p(x)\log\frac{p(x)}{q(x)}$는 두 분포 사이의 비대칭적 “거리”를 나타낸다.
- 교차 엔트로피는 이 두 개념과 다음 관계를 가진다.
$$ H(p, q) = H(p) + D_{\mathrm{KL}}(p|q) $$
즉, 교차 엔트로피는 실제 엔트로피에 KL 발산을 더한 값으로, 모델 $q$가 실제 분포 $p$와 얼마나 차이가 나는지를 나타낸다.
머신러닝에서의 활용
1. 분류 문제
다중 클래스 분류에서 소프트맥스 출력을 갖는 신경망은 각 클래스에 대한 확률 $q_i$를 제공한다. 정답 레이블은 원-핫 인코딩된 분포 $p$로 표현되며, 손실 함수로 교차 엔트로피를 사용한다.
$$ \mathcal{L}{\text{CE}} = -\sum{i=1}^{C} p_i \log q_i $$
여기서 $C$는 클래스 개수이다. 정답이 한 클래스로 한정된 경우, 위 식은 $-\log q_{y}$ 형태(정답 클래스 $y$에 대한 로그 확률)로 간단히 표현된다.
2. 회귀·확률 모델
베르누이, 다항, 가우시안 등 특정 확률 모델을 가정한 경우에도 그에 맞는 교차 엔트로피 형태(예: 베르누이 교차 엔트로피, 가우시안 로그우도)가 손실 함수로 쓰인다.
3. 정규화와 최적화
교차 엔트로피는 미분 가능하고, 경사 하강법 등 최적화 알고리즘에 바로 사용할 수 있다. 또한, 소프트맥스와 결합된 형태는 수치적 안정성을 위해 로그-소프트맥스(log‑softmax) 형태로 구현되기도 한다.
관련 개념
| 용어 | 정의 | 관계 |
|---|---|---|
| 엔트로피(Entropy) | 단일 확률 분포의 평균 정보량 | $H(p) = H(p, p)$ |
| KL 발산(Kullback–Leibler divergence) | 두 분포 사이의 비대칭 차이 | $D_{\mathrm{KL}}(p|q) = H(p, q) - H(p)$ |
| 로그 우도(Log‑likelihood) | 관측 데이터가 모델에 의해 생성될 확률의 로그 | 교차 엔트로피는 로그 우도의 부정값에 해당 (데이터가 실제 분포라 가정) |
참고 문헌
- Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory. Wiley.
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
이 문서는 2024년 기준의 교차 엔트로피에 대한 일반적인 이해를 바탕으로 작성되었습니다.