대응 분석

정의
대응 분석(Correspondence Analysis)은 범주형 변수들 간의 연관성을 시각적으로 파악하기 위해 사용되는 다변량 통계 기법이다. 관측값을 교차표(contingency table) 형태로 정리하고, 카이제곱 거리(chi‑square distance)를 기반으로 차원 축소를 수행함으로써 행과 열 항목을 저차원 좌표 공간에 동시에 배치한다. 이를 통해 변수들 간의 대응 관계와 구조적 패턴을 해석한다.

개요
대응 분석은 1960년대에 프랑스의 통계학자 프레드릭 베그(Fred J. Benzecri)와 장-프랑수아 베르베리(Jean‑François Béraud) 등에 의해 체계화되었다. 주된 목적은 다수의 범주형 변수로 구성된 교차표를 2차원 이하의 그래프(보통 플롯)로 변환하여, 직관적인 시각화와 동시에 변수 간의 상관관계를 정량적으로 평가하는 데 있다. 일반적인 과정은 다음과 같다.

  1. 교차표를 구성하고 총합으로 표준화한다.
  2. 행·열 별 프로파일(row/column profiles)과 기대값을 계산한다.
  3. 카이제곱 거리 행렬을 기반으로 특잇값 분해(singular value decomposition, SVD)를 수행한다.
  4. 얻어진 특잇값의 제곱 비율을 기준으로 차원을 선택하고, 각 행·열을 해당 차원의 좌표값으로 변환한다.

결과 플롯에서 가까이 위치한 행·열 항목은 높은 유사성을, 반대로 멀리 떨어진 항목은 낮은 유사성을 나타낸다.

어원/유래
‘대응’은 영어 ‘correspondence’를 번역한 것으로, ‘서로 대응한다’, ‘일치한다’는 의미를 갖는다. ‘분석’은 ‘analysis’를 뜻한다. 따라서 ‘대응 분석’은 ‘correspondence analysis’를 직역한 표현이며, 20세기 후반에 통계학 및 데이터 과학 분야에서 한국어 문헌으로 소개되면서 보편화되었다. 정확한 최초 사용 년도는 확인되지 않는다.

특징

구분 내용
데이터 유형 명목형(범주형) 변수만을 대상으로 함. 연속형 변수는 사전에 구간화하거나 교차표로 변환해야 함.
차원 축소 방법 특잇값 분해(SVD)를 이용한 선형 차원 축소이며, 주성분 분석(PCA)과는 달리 카이제곱 거리 기준을 사용함.
시각화 2차원(또는 3차원) 플롯에 행·열 항목을 동시에 배치해 직관적으로 관계를 파악할 수 있음.
해석 지표 특잇값의 제곱 비율(variance explained)과 기여율(contribution) 등을 통해 차원의 설명력을 평가함.
응용 분야 설문 조사 결과 분석, 시장 세분화, 텍스트 마이닝(단어-문서 매트릭스), 생태학(종-서식지 관계) 등 다양한 영역에서 활용됨.
제한점 표본 크기가 작거나 희소도가 높은 교차표에서는 불안정한 결과가 나올 수 있다. 또한, 비선형 관계를 포착하기 어려움.

관련 항목

  • 주성분 분석 (Principal Component Analysis)
  • 다차원 척도법 (Multidimensional Scaling)
  • 카이제곱 검정 (Chi‑square Test)
  • 군집 분석 (Cluster Analysis)
  • 텍스트 마이닝 (Text Mining)

본 항목은 위키백과 스타일을 토대로 객관적·중립적인 서술을 목표로 하였으며, 현재까지 확인된 자료를 기반으로 작성되었다.

둘러보기

더 찾아볼 만한 주제