결정 트리 학습법

결정 트리 학습법은 기계 학습 및 데이터 마이닝 분야에서 활용되는 지도 학습 기법 중 하나로, 입력 변수(특성)와 목표 변수(레이블) 사이의 관계를 트리 구조로 모델링한다. 트리의 각 내부 노드는 하나의 특성에 대한 조건 테스트를 나타내며, 가지(branch)는 테스트 결과에 따라 분기되는 경로, 말단 노드(leaf)는 최종 예측값(클래스 라벨 또는 연속값)을 제공한다.

개념 및 원리

  • 분할 기준: 학습 과정에서 데이터 집합을 분할할 때는 정보 이득(information gain), 지니 불순도(Gini impurity), 감소된 평균 제곱오차(Reduce Mean Squared Error) 등과 같은 정량적 척도를 사용한다.
  • 트리 성장: 초기에는 전체 데이터가 하나의 루트 노드에 위치하고, 선택된 특성에 따라 재귀적으로 하위 노드가 생성된다. 트리는 일반적으로 지정된 깊이 제한, 최소 샘플 수, 최소 불순도 감소 등과 같은 정지 기준(stop criteria)에 도달할 때까지 성장한다.
  • 가지치기(pruning): 과적합(overfitting)을 방지하기 위해 학습 후에 불필요한 분기를 제거하는 과정이 수행된다. 사전 가지치기(pre-pruning)와 사후 가지치기(post-pruning)가 있다.

주요 알고리즘

알고리즘 주요 특징
ID3 (Iterative Dichotomiser 3) 엔트로피 기반 정보 이득을 사용하여 특성을 선택
C4.5 연속형 특성 처리, 가지치기, 누락값 처리 기능 포함
CART (Classification and Regression Trees) 지니 불순도(분류)와 평균 제곱오차(회귀) 사용, 이진 트리 구조
CHAID (Chi-squared Automatic Interaction Detector) 카이제곱 검정을 이용해 다중 분기 가능

학습 과정 요약

  1. 특성 선택: 후보 특성 중 최적의 분할 기준을 제공하는 특성을 선택한다.
  2. 노드 분할: 선택된 특성에 따라 데이터 집합을 두 개 이상의 하위 집합으로 나눈다.
  3. 재귀적 적용: 각 하위 집합에 대해 1~2 과정을 반복한다.
  4. 정지 조건 검토: 사전 정의된 정지 기준을 만족하면 분할을 중단하고 말단 노드를 만든다.
  5. 가지치기 (선택적): 학습된 트리를 검증 데이터 혹은 교차 검증을 통해 평가하고, 불필요한 분기를 제거한다.

장점

  • 직관적인 시각화가 가능하여 모델 해석이 용이하다.
  • 범주형·연속형 특성을 혼합하여 사용할 수 있다.
  • 비교적 빠른 학습 속도와 예측 속도를 제공한다.

단점

  • 복잡한 비선형 관계를 잘 포착하지 못하고, 깊은 트리는 과적합 위험이 크다.
  • 작은 변동에도 트리 구조가 크게 변할 수 있어 불안정성을 보인다(특히 단일 결정 트리).
  • 다중 클래스 문제가 있는 경우, 클래스 불균형에 민감할 수 있다.

응용 분야

  • 의료 진단(질병 위험도 평가)
  • 금융 사기 탐지
  • 고객 세분화 및 마케팅 전략 수립
  • 자연어 처리(문서 분류)
  • 이미지 인식(특성 기반 전처리 단계)

관련 연구 및 발전

  • 앙상블 방법: 배깅(bagging) 기반의 랜덤 포레스트(Random Forest)와 부스팅(boosting) 기반의 Gradient Boosting Decision Tree(GBDT), XGBoost, LightGBM 등은 단일 결정 트리의 한계를 보완하기 위해 여러 트리를 결합한다.
  • 규제 기법: 최소 샘플 수, 최대 깊이, 최소 불순도 감소 등 파라미터를 조절해 일반화 성능을 향상시키는 연구가 활발히 진행되고 있다.

참고 문헌 (대표)

  1. Quinlan, J. R. (1986). Induction of decision trees. Machine Learning, 1(1), 81–106.
  2. Breiman, L., Friedman, J. H., Olshen, R. A., & Stone, C. J. (1984). Classification and Regression Trees. Wadsworth.
  3. Friedman, J. H. (2001). Greedy function approximation: A gradient boosting machine. Annals of Statistics, 29(5), 1189–1232.

(※ 위 내용은 공개된 학술 자료 및 교과서 등을 기반으로 정리된 것으로, 최신 연구 동향에 따라 추가·수정될 수 있다.)

둘러보기

더 찾아볼 만한 주제