정의
잠재 의미 분석(Latent Semantic Analysis, LSA)은 텍스트 자료에 내재된 의미 구조를 통계적으로 추출하고, 단어와 문서 간의 관계를 저차원 의미 공간으로 표현하는 기법이다. 대규모 단어‑문서 행렬에 특이값 분해(Singular Value Decomposition, SVD)를 적용함으로써, 표면적인 단어 빈도에서 벗어나 잠재적인 의미 패턴을 발견한다.
역사·배경
1970년대 말부터 1990년대 초반에 걸쳐 인지심리학과 정보검색 분야에서 의미 공간 모델에 대한 연구가 진행되었으며, 1990년에 셀러(Scott Deerwester)와 동료들이 “Indexing by Latent Semantic Analysis” 논문을 발표하면서 현대적 형태의 LSA가 정식으로 제시되었다. 이후 자연어 처리(NLP), 정보 검색(IR), 텍스트 마이닝 등 다양한 분야에서 널리 활용되고 있다.
핵심 원리
- 문서‑단어 행렬 구성 – 각 문서를 행, 각 단어를 열로 하는 행렬 X를 만든다. 일반적으로 TF·IDF 가중치를 적용한다.
- 특이값 분해(SVD) – X = UΣVᵗ 로 분해한다. 여기서 U와 V는 각각 단어와 문서의 직교 벡터, Σ는 특이값(대각 행렬)이다.
- 차원 축소 – 상위 k개의 특이값과 대응하는 열벡터만 남겨 Xₖ = UₖΣₖVₖᵗ 로 근사한다. k는 보통 100~300 정도이며, 의미적 잡음을 억제하고 핵심 구조를 보존한다.
- 잠재 의미 공간 – 각 단어와 문서는 UₖΣₖ 혹은 ΣₖVₖᵗ 로 표현된 k‑차원 벡터가 된다. 이 벡터들 간의 코사인 유사도 등을 통해 의미적 유사성을 계산한다.
주요 절차
| 단계 | 설명 |
|---|---|
| 1. 텍스트 전처리 | 토큰화, 소문자 변환, 불용어 제거, 형태소 분석 등 |
| 2. 행렬 구축 | TF·IDF 가중치 부여 후 문서‑단어 행렬 생성 |
| 3. 차원 축소 | SVD 수행 후 원하는 차원 k 선택 |
| 4. 의미 공간 활용 | 유사도 계산, 검색, 클러스터링, 분류 등에 적용 |
특징
| 장점 | 단점 |
|---|---|
| • 고차원 희소 행렬을 저차원 밀집 벡터로 압축 → 연산 효율 향상 • 동의어·다의어 문제 완화 (잠재 의미를 공유) • 라벨이 필요 없는 비지도 학습 |
• 선형 모델에 기반해 복잡한 비선형 의미 관계 포착에 한계 • 차원 k 선택이 성능에 큰 영향을 미침 • 대규모 행렬에 대한 SVD 계산 비용이 높음 (특히 온라인 실시간 처리에 부적합) |
응용 분야
- 정보 검색 – 질의와 문서 간 코사인 유사도로 검색 순위 결정.
- 문서 분류·클러스터링 – 저차원 벡터를 입력으로 사용해 머신러닝 모델 적용.
- 자동 요약·텍스트 생성 – 의미 공간에서 핵심 문장을 선정하거나 벡터 연산을 통해 요약.
- 지식 탐색·추천 시스템 – 사용자 프로필과 아이템을 동일 의미 공간에 매핑해 유사도 기반 추천.
- 심리학·교육 연구 – 인간의 의미 인식과 기억 구조를 모델링하는 도구로 활용.
관련 기술·발전
- 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA) : 확률적 토픽 모델링, LSA와 달리 확률 분포 기반.
- Word2Vec, GloVe : 신경망 기반 임베딩, 비선형 관계를 더 잘 포착.
- BERT, GPT 등 트랜스포머 모델 : 문맥 의존적 깊은 의미 표현, LSA보다 높은 성능을 보임.
- 증분 SVD : 온라인 환경에서 행렬 업데이트를 효율적으로 처리하는 방법.
한계와 현재 연구 동향
LSA는 여전히 고전적인 의미 공간 모델로서 교육·연구 목적에 많이 사용되지만, 최신 딥러닝 기반 임베딩이 주류를 이루고 있다. 최근에는 Hybrid LSA(LSA와 신경망 임베딩 결합), Sparse LSA(희소성을 유지한 차원 축소), 그리고 정규화된 SVD(노이즈 억제와 해석 가능성 향상) 등으로 기존 한계를 보완하려는 연구가 진행 중이다.
참고 문헌
- Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., & Harshman, R. (1990). Indexing by latent semantic analysis. Journal of the American Society for Information Science, 41(6), 391‑407.
- Landauer, T. K., & Dumais, S. T. (1997). A solution to Plato’s problem: The latent semantic analysis theory of acquisition, induction, and representation of knowledge. Psychological Review, 104(2), 211‑240.
- Berry, M. W. (1999). Multivariate statistics: A vector space approach (2nd ed.). Wiley.
- Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press. (Chapter 13: Latent Semantic Indexing)
요약
잠재 의미 분석은 텍스트 데이터를 저차원 의미 공간으로 변환하여 단어와 문서 사이의 잠재적인 의미 관계를 파악하는 통계적 방법이다. SVD 기반 차원 축소를 핵심으로 하며, 정보 검색, 문서 분류, 추천 시스템 등에서 활용된다. 비록 최신 딥러닝 기반 임베딩에 비해 표현력이 제한적이지만, 해석 용이성·계산 효율성·학습 데이터 의존도가 낮다는 장점으로 여전히 연구·교육 현장에서 가치가 있다.