정의
GloVe(Global Vectors for Word Representation)는 대규모 텍스트 코퍼스에서 단어들의 의미적 관계를 저차원 실수 벡터 형태로 학습하기 위한 비지도 학습 알고리즘이다. 단어 간 동시 출현 통계 정보를 이용해 벡터 공간에 의미적 유사성을 반영한다.
개요
- 2014년 스탠포드 대학교의 연구진(Jeffrey Pennington, Richard Socher, Christopher D. Manning)에 의해 제안되었다.
- 전체 코퍼스의 단어-단어 동시 발생 행렬을 구축하고, 이를 로그 확률 비율 형태의 손실 함수에 적용하여 최적화한다.
- 학습된 벡터는 단어 유사도 측정, 군집화, 문서 분류, 기계 번역 등 자연어 처리(NLP) 다양한 응용 분야에서 활용된다.
- 공개된 사전 훈련 모델(GloVe 6B, 42B, 840B 등)이 제공되어, 별도의 대규모 학습 없이도 일반적인 언어 이해 작업에 바로 적용할 수 있다.
어원/유래
‘GloVe’는 “Global Vectors”의 약자로, 전역적인(co-occurrence) 통계 정보를 기반으로 벡터를 생성한다는 의미를 담고 있다. ‘Global’이라는 용어는 전체 코퍼스 수준의 통계량을 활용한다는 점을 강조한다.
특징
- 전역 통계 활용 – 단어 쌍의 전체 동시 발생 빈도를 이용해 손실 함수를 정의함으로써, 로컬 윈도우 기반 모델(word2vec)보다 코퍼스 전반의 정보를 더 효과적으로 반영한다.
- 선형 구조 유지 – 벡터 차원 간 선형 연산(예: king – man + woman ≈ queen)이 의미론적 관계를 잘 보존한다는 점이 실험적으로 확인되었다.
- 효율적인 학습 – 행렬 분해와 확률적 경사 하강법을 결합한 최적화 방식으로, 대규모 코퍼스에서도 비교적 빠른 학습이 가능하다.
- 사전 훈련 모델 제공 – 다양한 규모의 공개 사전 훈련 벡터가 존재해, 연구·산업 현장에서 바로 활용할 수 있다.
- 한계 – 고정된 어휘 집합에 대한 벡터만 제공하므로, 사전 외 단어(OOV)에 대해선 별도 처리(예: 서브워드 모델)가 필요하다.
관련 항목
- Word2Vec
- FastText
- Word Embedding
- 자연어 처리(NLP)
- 딥러닝
- 텍스트 마이닝
- 코퍼스 언어학
- 벡터 공간 모델
※ 본 문서는 GloVe에 대한 공신력 있는 문헌과 공개 자료를 토대로 작성되었으며, 최신 연구 동향에 따라 내용이 추가·수정될 수 있다.