📖 WIPIVERSE

🔍 현재 등록된 정보: 59,603건

점별 상호정보량

점별 상호정보량(Pointwise Mutual Information, PMI)은 정보 이론에서 두 사건 사이의 연관성을 측정하는 방법입니다. 특히 자연어 처리 분야에서 단어 간의 의미적 연관성이나 통계적 연관성을 파악하는 데 유용하게 사용됩니다. PMI는 두 사건이 동시에 발생할 확률과 각 사건이 독립적으로 발생할 확률을 비교하여 계산됩니다.

정의

두 사건 xy의 점별 상호정보량 PMI(x, y)는 다음과 같이 정의됩니다.

PMI(x, y) = log₂ (P(x, y) / (P(x) * P(y)))

여기서,

  • P(x, y)는 사건 x와 사건 y가 동시에 발생할 확률입니다.
  • P(x)는 사건 x가 발생할 확률입니다.
  • P(y)는 사건 y가 발생할 확률입니다.

로그의 밑은 보통 2를 사용하며, 이때 PMI의 단위는 비트(bit)입니다. 밑이 e인 자연로그를 사용하면 단위는 나트(nat)가 됩니다.

해석

  • PMI 값이 양수이면 두 사건은 서로 양의 상관관계를 가집니다. 즉, 한 사건이 발생하면 다른 사건이 발생할 가능성이 높아집니다.
  • PMI 값이 음수이면 두 사건은 서로 음의 상관관계를 가집니다. 즉, 한 사건이 발생하면 다른 사건이 발생할 가능성이 낮아집니다.
  • PMI 값이 0이면 두 사건은 서로 독립적입니다. 즉, 한 사건의 발생 여부가 다른 사건의 발생에 영향을 미치지 않습니다.

활용

점별 상호정보량은 다양한 자연어 처리 작업에 활용됩니다. 몇 가지 예시는 다음과 같습니다.

  • 단어 연관성 측정: 텍스트 코퍼스에서 단어 쌍의 PMI를 계산하여 단어 간의 의미적 또는 통계적 연관성을 파악합니다. 예를 들어, '커피'와 '카페'는 높은 PMI 값을 가질 수 있습니다.
  • 단어 유사도 측정: 단어 벡터 간의 유사도를 계산하는 데 사용될 수 있습니다.
  • 특성 선택: 기계 학습 모델에서 중요한 특성을 선택하는 데 활용될 수 있습니다.
  • 정보 검색: 검색어와 문서 간의 관련성을 평가하는 데 사용될 수 있습니다.

한계

PMI는 희소한 사건에 대해 민감하게 반응하는 경향이 있습니다. 즉, 두 사건이 동시에 발생하는 횟수가 매우 적으면 PMI 값이 과장될 수 있습니다. 이러한 문제를 완화하기 위해, 정규화된 점별 상호정보량(Normalized Pointwise Mutual Information, NPMI)과 같은 변형된 측도를 사용하기도 합니다.