📖 WIPIVERSE

🔍 현재 등록된 정보: 53,273건

정보 엔트로피

정보 엔트로피는 정보 이론에서 확률 변수가 담고 있는 정보의 양 또는 불확실성을 나타내는 척도이다. 1948년 클로드 섀넌에 의해 정의되었으며, 데이터 압축, 통신, 머신 러닝 등 다양한 분야에서 활용된다. 엔트로피는 확률 분포가 균등할수록, 즉 발생 가능한 모든 사건의 가능성이 비슷할수록 높아지며, 특정 사건의 발생 가능성이 매우 높을수록 낮아진다.

정의

이산 확률 변수 X의 엔트로피 H(X)는 다음과 같이 정의된다.

H(X) = - Σ P(x) log₂ P(x)

여기서 P(x)는 X가 x라는 값을 가질 확률을 나타내며, 합은 X가 가질 수 있는 모든 가능한 값에 대해 계산된다. 로그의 밑은 일반적으로 2를 사용하며, 이때 엔트로피의 단위는 비트(bit)이다. 자연로그를 사용할 경우 단위는 내트(nat)가 된다.

의미 및 해석

엔트로피는 다음과 같은 의미를 내포한다.

  • 불확실성: 엔트로피가 높을수록 확률 변수의 값을 예측하기 어렵다.
  • 정보량: 엔트로피는 확률 변수의 값을 정확히 알기 위해 필요한 평균 비트 수를 나타낸다.
  • 무질서도: 통계 물리학의 엔트로피 개념과 유사하게, 정보 엔트로피는 시스템의 무질서도를 나타낸다.

예시

동전 던지기를 예로 들어보자. 공정한 동전이라면 앞면과 뒷면이 나올 확률이 각각 0.5이다. 이 경우 엔트로피는 다음과 같이 계산된다.

H(X) = - (0.5 * log₂ 0.5 + 0.5 * log₂ 0.5) = 1 bit

만약 동전이 불공정하여 앞면이 나올 확률이 0.9이고 뒷면이 나올 확률이 0.1이라면 엔트로피는 다음과 같이 계산된다.

H(X) = - (0.9 * log₂ 0.9 + 0.1 * log₂ 0.1) ≈ 0.469 bit

이 예시에서 볼 수 있듯이, 확률 분포가 균등할 때(공정한 동전) 엔트로피가 더 높고, 특정 사건의 발생 가능성이 높을 때(불공정한 동전) 엔트로피가 더 낮다.

활용

정보 엔트로피는 다음과 같은 분야에서 활용된다.

  • 데이터 압축: 섀넌-파노 부호, 허프만 부호 등과 같은 데이터 압축 알고리즘은 엔트로피를 이용하여 데이터의 중복성을 제거하고 압축 효율을 높인다.
  • 통신: 통신 채널의 용량을 정의하는 데 사용되며, 정보가 얼마나 효율적으로 전송될 수 있는지를 나타낸다.
  • 머신 러닝: 의사 결정 트리 학습에서 정보 획득량(Information Gain)을 계산하는 데 사용되며, 특성 선택에 중요한 역할을 한다.
  • 자연어 처리: 텍스트의 통계적 특성을 분석하고, 언어 모델을 구축하는 데 활용된다.