워드 임베딩

정의
워드 임베딩(word embedding)은 자연어 처리(NLP) 분야에서 사용되는 기술로, 텍스트에 등장하는 각 단어를 고정된 차원의 실수 벡터로 변환하는 방법을 말한다. 이러한 벡터는 단어 간의 의미적·문법적 관계를 수치적으로 표현하여, 기계 학습 모델이 텍스트 데이터를 효율적으로 다룰 수 있게 한다.

개요
워드 임베딩은 대규모 말뭉치를 기반으로 단어의 동시출현(co-occurrence) 통계를 이용하거나, 신경망 모델을 통해 학습된다. 대표적인 학습 방식으로는 다음과 같다.

  • Word2Vec: Skip‑gram과 CBOW(Continuous Bag‑of‑Words) 모델을 사용해 주변 단어 예측을 통해 벡터를 학습한다.
  • GloVe(Global Vectors for Word Representation): 전체 말뭉치의 단어-단어 동시출현 행렬을 분해하여 벡터를 만든다.
  • FastText: 단어를 서브워드(문자 n‑gram) 단위로 분해해 어휘 외 단어(OOV)에 대한 표현을 제공한다.
  • Contextual Embedding(예: BERT, ELMo): 문맥에 따라 변하는 동적 벡터를 생성해, 동일한 단어라도 다른 의미를 구별한다.

이러한 벡터는 일반적으로 수백 차원의 실수 공간에 위치하며, 코사인 유사도 등으로 단어 간 유사성을 측정한다. 워드 임베딩은 텍스트 분류, 감성 분석, 기계 번역, 질의응답 등 다양한 NLP 응용 분야의 핵심 전처리 단계로 활용된다.

어원/유래
‘워드(word)’는 영어 ‘word’를 의미하며, ‘임베딩(embedding)’은 ‘삽입’, ‘내재화’라는 뜻의 영어 ‘embedding’에서 차용되었다. 이 용어는 2010년대 초반 Word2Vec 모델이 발표되면서 국제 학계와 산업계에서 널리 사용되었으며, 한국어 학술·기술 문헌에서도 그대로 차용해 ‘워드 임베딩’이라는 형태로 쓰인다.

특징

구분 내용
연속적인 표현 고정된 차원의 실수값으로, 희소한 원-핫 인코딩보다 효율적
의미적 유사성 의미가 비슷한 단어들이 벡터 공간에서 가까운 거리(예: 코사인 유사도)로 위치
학습 방식 통계 기반(예: GloVe) 혹은 신경망 기반(예: Word2Vec, BERT)
차원 수 일반적으로 50 ~ 300 차원, 모델에 따라 수천 차원까지 가능
문맥 의존성 전통적인 정적 임베딩은 문맥을 무시하고, 최신 컨텍스트 임베딩은 문맥에 따라 동적으로 변함
OOV 문제 FastText 등은 서브워드 정보를 활용해 사전에 없는 단어도 벡터화 가능
전이 학습 사전 학습된 임베딩을 다양한 다운스트림 작업에 재사용 가능

관련 항목

  • 자연어 처리(NLP)
  • 단어 임베딩(Word Embedding)
  • 문맥 기반 임베딩(Contextual Embedding)
  • Word2Vec
  • GloVe
  • FastText
  • BERT(Bidirectional Encoder Representations from Transformers)
  • 딥러닝
  • 텍스트 마이닝

※ 이 글은 현재까지 확인된 학술·기술 문헌과 공신력 있는 출처를 바탕으로 작성되었으며, 최신 연구 동향에 따라 내용이 수정될 수 있다.

둘러보기

더 찾아볼 만한 주제