정의
워드 임베딩(word embedding)은 자연어 처리(NLP) 분야에서 사용되는 기술로, 텍스트에 등장하는 각 단어를 고정된 차원의 실수 벡터로 변환하는 방법을 말한다. 이러한 벡터는 단어 간의 의미적·문법적 관계를 수치적으로 표현하여, 기계 학습 모델이 텍스트 데이터를 효율적으로 다룰 수 있게 한다.
개요
워드 임베딩은 대규모 말뭉치를 기반으로 단어의 동시출현(co-occurrence) 통계를 이용하거나, 신경망 모델을 통해 학습된다. 대표적인 학습 방식으로는 다음과 같다.
- Word2Vec: Skip‑gram과 CBOW(Continuous Bag‑of‑Words) 모델을 사용해 주변 단어 예측을 통해 벡터를 학습한다.
- GloVe(Global Vectors for Word Representation): 전체 말뭉치의 단어-단어 동시출현 행렬을 분해하여 벡터를 만든다.
- FastText: 단어를 서브워드(문자 n‑gram) 단위로 분해해 어휘 외 단어(OOV)에 대한 표현을 제공한다.
- Contextual Embedding(예: BERT, ELMo): 문맥에 따라 변하는 동적 벡터를 생성해, 동일한 단어라도 다른 의미를 구별한다.
이러한 벡터는 일반적으로 수백 차원의 실수 공간에 위치하며, 코사인 유사도 등으로 단어 간 유사성을 측정한다. 워드 임베딩은 텍스트 분류, 감성 분석, 기계 번역, 질의응답 등 다양한 NLP 응용 분야의 핵심 전처리 단계로 활용된다.
어원/유래
‘워드(word)’는 영어 ‘word’를 의미하며, ‘임베딩(embedding)’은 ‘삽입’, ‘내재화’라는 뜻의 영어 ‘embedding’에서 차용되었다. 이 용어는 2010년대 초반 Word2Vec 모델이 발표되면서 국제 학계와 산업계에서 널리 사용되었으며, 한국어 학술·기술 문헌에서도 그대로 차용해 ‘워드 임베딩’이라는 형태로 쓰인다.
특징
| 구분 | 내용 |
|---|---|
| 연속적인 표현 | 고정된 차원의 실수값으로, 희소한 원-핫 인코딩보다 효율적 |
| 의미적 유사성 | 의미가 비슷한 단어들이 벡터 공간에서 가까운 거리(예: 코사인 유사도)로 위치 |
| 학습 방식 | 통계 기반(예: GloVe) 혹은 신경망 기반(예: Word2Vec, BERT) |
| 차원 수 | 일반적으로 50 ~ 300 차원, 모델에 따라 수천 차원까지 가능 |
| 문맥 의존성 | 전통적인 정적 임베딩은 문맥을 무시하고, 최신 컨텍스트 임베딩은 문맥에 따라 동적으로 변함 |
| OOV 문제 | FastText 등은 서브워드 정보를 활용해 사전에 없는 단어도 벡터화 가능 |
| 전이 학습 | 사전 학습된 임베딩을 다양한 다운스트림 작업에 재사용 가능 |
관련 항목
- 자연어 처리(NLP)
- 단어 임베딩(Word Embedding)
- 문맥 기반 임베딩(Contextual Embedding)
- Word2Vec
- GloVe
- FastText
- BERT(Bidirectional Encoder Representations from Transformers)
- 딥러닝
- 텍스트 마이닝
※ 이 글은 현재까지 확인된 학술·기술 문헌과 공신력 있는 출처를 바탕으로 작성되었으며, 최신 연구 동향에 따라 내용이 수정될 수 있다.