일반화 가법 모델

일반화 가법 모델(Generalized Additive Model, GAM) 은 통계학 및 기계학습 분야에서 사용되는 회귀·분류 모델 중 하나로, 종속 변수와 여러 독립 변수 사이의 관계를 각 독립 변수에 대한 비선형 함수들의 합으로 표현한다. 일반화 선형 모델(Generalized Linear Model, GLM)의 확장 형태로, GLM이 선형 예측 함수를 가정하는 반면, GAM은 각 독립 변수에 대해 스무딩 함수(smoothing function)를 적용함으로써 보다 유연한 형태의 함수 추정을 가능하게 한다.


정의

GAM은 다음과 같은 형태의 예측 함수를 갖는다.

$$ g(\mathbb{E}[Y]) = \beta_0 + \sum_{j=1}^{p} f_j (X_j) $$

  • $Y$ : 종속 변수(연속형, 이항형, 포아송형 등)
  • $X_j$ : $j$번째 독립 변수
  • $f_j(\cdot)$ : 매끄러운 비선형 함수(스플라인, 로컬 회귀 등)
  • $g(\cdot)$ : 연결 함수(link function), GLM과 동일하게 선택 (예: 로그, 로짓)
  • $\beta_0$ : 절편

각 $f_j$는 데이터에 적합하도록 비파라메트릭 방식으로 추정되며, 함수들의 합이 전체 예측 값을 만든다.


역사

일반화 가법 모델은 1980년대 후반부터 1990년대 초반에 걸쳐 Trevor HastieRobert Tibshirani에 의해 체계화되었다. 1990년 발표된 논문 Generalized Additive Models와 1990년 교과서 Generalized Additive Models에서 정식으로 소개되었으며, 이후 다양한 분야에서 널리 활용되었다.


수학적 형식 및 추정 방법

  1. 스무딩 함수

    • 스플라인(예: B‑스플라인, P‑스플라인)
    • 로컬 다항 회귀(loess)
    • 평활화 스플라인(스무싱 스플라인)
  2. 추정 알고리즘

    • Backfitting algorithm : 각 $f_j$를 순차적으로 갱신하면서 잔차를 최소화하는 반복 방식.
    • Penalized likelihood : 스무딩 파라미터에 대한 페널티를 포함한 최대우도 추정.
    • Restricted maximum likelihood (REML) : 스무딩 파라미터 선택을 위한 방법 중 하나.
  3. 모델 선택

    • 교차 검증, AIC, BIC 등을 활용하여 스무딩 파라미터와 변수 선택을 수행한다.

활용 분야

분야 적용 사례
환경·생태학 기후 변수와 동식물 군집의 비선형 관계 분석
의학·역학 질병 발생률과 위험 요인(연령, 생활 습관 등)의 비선형 효과
경제·금융 비정형 경제 지표와 시장 반응의 복합 관계
마케팅 고객 특성에 따른 구매 확률 모델링
기계학습 해석 가능성이 요구되는 비선형 회귀·분류 문제

구현 및 소프트웨어

  • R : mgcv 패키지(최신 GAM 구현, 자동 스무딩 파라미터 선택), gam 패키지 등
  • Python : pyGAM 라이브러리, statsmodelsGLM 확장 형태
  • SAS, Stata, MATLAB 등에서도 GAM을 지원하는 모듈이 제공된다.

참고 문헌

  1. Hastie, T., & Tibshirani, R. (1990). Generalized Additive Models. CRC Press.
  2. Wood, S. N. (2017). Generalized Additive Models: An Introduction with R (2nd ed.). CRC Press.
  3. Hastie, T., & Tibshirani, R. (1996). Generalized Additive Models. Statistical Science, 11(4), 379–409.

주요 특징

  • 비선형 효과를 각각의 변수별로 독립적으로 모델링함으로써 해석 용이성이 높다.
  • 연결 함수와 스무딩 함수의 선택에 따라 다양한 분포와 관계를 포괄한다.
  • 과적합을 방지하기 위해 스무딩 파라미터에 대한 페널티를 적용한다.

일반화 가법 모델은 통계적 해석과 예측 정확성을 동시에 추구하는 현대 데이터 분석에서 중요한 도구로 자리매김하고 있다.

둘러보기

더 찾아볼 만한 주제