정의
대응 분석(Correspondence Analysis)은 범주형 변수들 간의 연관성을 시각적으로 파악하기 위해 사용되는 다변량 통계 기법이다. 관측값을 교차표(contingency table) 형태로 정리하고, 카이제곱 거리(chi‑square distance)를 기반으로 차원 축소를 수행함으로써 행과 열 항목을 저차원 좌표 공간에 동시에 배치한다. 이를 통해 변수들 간의 대응 관계와 구조적 패턴을 해석한다.
개요
대응 분석은 1960년대에 프랑스의 통계학자 프레드릭 베그(Fred J. Benzecri)와 장-프랑수아 베르베리(Jean‑François Béraud) 등에 의해 체계화되었다. 주된 목적은 다수의 범주형 변수로 구성된 교차표를 2차원 이하의 그래프(보통 플롯)로 변환하여, 직관적인 시각화와 동시에 변수 간의 상관관계를 정량적으로 평가하는 데 있다. 일반적인 과정은 다음과 같다.
- 교차표를 구성하고 총합으로 표준화한다.
- 행·열 별 프로파일(row/column profiles)과 기대값을 계산한다.
- 카이제곱 거리 행렬을 기반으로 특잇값 분해(singular value decomposition, SVD)를 수행한다.
- 얻어진 특잇값의 제곱 비율을 기준으로 차원을 선택하고, 각 행·열을 해당 차원의 좌표값으로 변환한다.
결과 플롯에서 가까이 위치한 행·열 항목은 높은 유사성을, 반대로 멀리 떨어진 항목은 낮은 유사성을 나타낸다.
어원/유래
‘대응’은 영어 ‘correspondence’를 번역한 것으로, ‘서로 대응한다’, ‘일치한다’는 의미를 갖는다. ‘분석’은 ‘analysis’를 뜻한다. 따라서 ‘대응 분석’은 ‘correspondence analysis’를 직역한 표현이며, 20세기 후반에 통계학 및 데이터 과학 분야에서 한국어 문헌으로 소개되면서 보편화되었다. 정확한 최초 사용 년도는 확인되지 않는다.
특징
| 구분 | 내용 |
|---|---|
| 데이터 유형 | 명목형(범주형) 변수만을 대상으로 함. 연속형 변수는 사전에 구간화하거나 교차표로 변환해야 함. |
| 차원 축소 방법 | 특잇값 분해(SVD)를 이용한 선형 차원 축소이며, 주성분 분석(PCA)과는 달리 카이제곱 거리 기준을 사용함. |
| 시각화 | 2차원(또는 3차원) 플롯에 행·열 항목을 동시에 배치해 직관적으로 관계를 파악할 수 있음. |
| 해석 지표 | 특잇값의 제곱 비율(variance explained)과 기여율(contribution) 등을 통해 차원의 설명력을 평가함. |
| 응용 분야 | 설문 조사 결과 분석, 시장 세분화, 텍스트 마이닝(단어-문서 매트릭스), 생태학(종-서식지 관계) 등 다양한 영역에서 활용됨. |
| 제한점 | 표본 크기가 작거나 희소도가 높은 교차표에서는 불안정한 결과가 나올 수 있다. 또한, 비선형 관계를 포착하기 어려움. |
관련 항목
- 주성분 분석 (Principal Component Analysis)
- 다차원 척도법 (Multidimensional Scaling)
- 카이제곱 검정 (Chi‑square Test)
- 군집 분석 (Cluster Analysis)
- 텍스트 마이닝 (Text Mining)
본 항목은 위키백과 스타일을 토대로 객관적·중립적인 서술을 목표로 하였으며, 현재까지 확인된 자료를 기반으로 작성되었다.