교차 엔트로피

교차 엔트로피

교차 엔트로피(Cross‑entropy)는 정보 이론 및 통계학, 머신러닝 분야에서 두 확률 분포 사이의 차이를 측정하는 함수이다. 특히, 실제 분포 $p$와 모델이 예측한 분포 $q$ 사이의 차이를 정량화함으로써 모델 학습에서 손실 함수로 자주 사용된다.

정의

두 이산 확률 분포 $p$와 $q$가 동일한 표본 공간 $\mathcal{X}$ 위에 정의되었을 때, 교차 엔트로피 $H(p, q)$는 다음과 같이 정의된다.

$$ H(p, q) = - \sum_{x \in \mathcal{X}} p(x) \log q(x) $$

연속형 경우에는 적분 형태로 정의된다.

엔트로피 $H(p) = -\sum_x p(x)\log p(x)$는 하나의 분포만을 고려한 평균 정보량이다.
KL 발산 $D_{\mathrm{KL}}(p|q) = \sum_x p(x)\log\frac{p(x)}{q(x)}$는 두 분포 사이의 비대칭적 “거리”를 나타낸다.
교차 엔트로피는 이 두 개념과 다음 관계를 가진다.

$$ H(p, q) = H(p) + D_{\mathrm{KL}}(p|q) $$

즉, 교차 엔트로피는 실제 엔트로피에 KL 발산을 더한 값으로, 모델 $q$가 실제 분포 $p$와 얼마나 차이가 나는지를 나타낸다.

다중 클래스 분류에서 소프트맥스 출력을 갖는 신경망은 각 클래스에 대한 확률 $q_i$를 제공한다. 정답 레이블은 원-핫 인코딩된 분포 $p$로 표현되며, 손실 함수로 교차 엔트로피를 사용한다.

$$ \mathcal{L}{\text{CE}} = -\sum{i=1}^{C} p_i \log q_i $$

여기서 $C$는 클래스 개수이다. 정답이 한 클래스로 한정된 경우, 위 식은 $-\log q_{y}$ 형태(정답 클래스 $y$에 대한 로그 확률)로 간단히 표현된다.

베르누이, 다항, 가우시안 등 특정 확률 모델을 가정한 경우에도 그에 맞는 교차 엔트로피 형태(예: 베르누이 교차 엔트로피, 가우시안 로그우도)가 손실 함수로 쓰인다.

교차 엔트로피는 미분 가능하고, 경사 하강법 등 최적화 알고리즘에 바로 사용할 수 있다. 또한, 소프트맥스와 결합된 형태는 수치적 안정성을 위해 로그-소프트맥스(log‑softmax) 형태로 구현되기도 한다.

용어	정의	관계
엔트로피(Entropy)	단일 확률 분포의 평균 정보량	$H(p) = H(p, p)$
KL 발산(Kullback–Leibler divergence)	두 분포 사이의 비대칭 차이	$D_{\mathrm{KL}}(p\|q) = H(p, q) - H(p)$
로그 우도(Log‑likelihood)	관측 데이터가 모델에 의해 생성될 확률의 로그	교차 엔트로피는 로그 우도의 부정값에 해당 (데이터가 실제 분포라 가정)

이 문서는 2024년 기준의 교차 엔트로피에 대한 일반적인 이해를 바탕으로 작성되었습니다.