회귀 분석

정의
회귀 분석(Regression Analysis)은 하나 이상의 독립 변수와 종속 변수 사이의 관계를 수학적 모델로 표현하여, 변수들 간의 상호작용을 정량적으로 분석하고 미래의 값을 예측하거나 변수들의 영향력을 평가하는 통계적 방법이다.

개요
회귀 분석은 통계학, 경제학, 사회과학, 공학 등 다양한 분야에서 폭넓게 활용된다. 가장 기본적인 형태인 단순 선형 회귀는 하나의 독립 변수와 하나의 종속 변수 사이의 직선 관계를 가정한다. 다중 회귀는 두 개 이상의 독립 변수를 포함하며, 비선형 회귀, 로지스틱 회귀, 다항 회귀 등 다양한 확장 모델이 존재한다. 모델 적합도 평가는 결정계수(R²), 평균 제곱 오차(MSE) 등과 같은 지표를 통해 이루어진다.

어원/유래
‘회귀’는 한자어 回歸(돌아올 회, 돌아올 귀)에서 유래하며, ‘분석’은 라틴어 analysis를 한글로 표기한 것이다. 회귀 분석이라는 용어는 영문 “regression analysis”를 번역한 것으로, 통계학 분야에서 19세기 말 프랑스의 프리드리히 갈루아와 영국의 프랜시스 골턴이 회귀 현상을 연구하면서 처음 사용된 ‘regression’ 개념을 기반으로 한다. 정확한 한국어 용어 도입 시점은 문헌마다 차이가 있으나, 20세기 중반 이후 통계학 교과서와 연구 논문에서 일반적으로 사용되었다.

특징

  1. 모형 가정: 선형 회귀는 독립 변수와 종속 변수 간의 선형 관계, 오류항의 정규성, 독립성, 등분산성을 가정한다.
  2. 예측 기능: 학습된 모델을 이용해 새로운 독립 변수 값에 대한 종속 변수 값을 추정할 수 있다.
  3. 해석 가능성: 회귀 계수는 각 독립 변수가 종속 변수에 미치는 기울기를 나타내며, 변수의 중요성을 직접적인 수치로 표현한다.
  4. 모형 선택: 변수 선택 방법(전진 선택, 후진 제거, 단계적 선택)과 정규화 기법(릿지 회귀, 라소 회귀) 등을 통해 과적합을 방지하고 모델의 일반화 성능을 향상시킨다.
  5. 확장 가능성: 시간 흐름에 따른 자료를 다루는 시계열 회귀, 범주형 종속 변수를 다루는 로지스틱 회귀 등 다양한 형태로 확장될 수 있다.

관련 항목

  • 선형 회귀
  • 다중 회귀
  • 로지스틱 회귀
  • 비선형 회귀
  • 최소제곱법
  • 변수 선택(전진 선택, 후진 제거)
  • 정규화(릿지 회귀, 라소 회귀)
  • 결정계수(R²)
  • 통계적 가설 검정
  • 머신러닝(Machine Learning)

※ 본 문서는 회귀 분석에 대한 일반적인 이해를 돕기 위해 작성된 백과사전식 요약이며, 각 세부 내용은 보다 전문적인 통계학 교재나 논문을 참고할 것을 권고한다.

둘러보기

더 찾아볼 만한 주제