결정 트리 학습법

결정 트리 학습법은 기계 학습 및 데이터 마이닝 분야에서 활용되는 지도 학습 기법 중 하나로, 입력 변수(특성)와 목표 변수(레이블) 사이의 관계를 트리 구조로 모델링한다. 트리의 각 내부 노드는 하나의 특성에 대한 조건 테스트를 나타내며, 가지(branch)는 테스트 결과에 따라 분기되는 경로, 말단 노드(leaf)는 최종 예측값(클래스 라벨 또는 연속값)을 제공한다.

개념 및 원리

분할 기준: 학습 과정에서 데이터 집합을 분할할 때는 정보 이득(information gain), 지니 불순도(Gini impurity), 감소된 평균 제곱오차(Reduce Mean Squared Error) 등과 같은 정량적 척도를 사용한다.
트리 성장: 초기에는 전체 데이터가 하나의 루트 노드에 위치하고, 선택된 특성에 따라 재귀적으로 하위 노드가 생성된다. 트리는 일반적으로 지정된 깊이 제한, 최소 샘플 수, 최소 불순도 감소 등과 같은 정지 기준(stop criteria)에 도달할 때까지 성장한다.
가지치기(pruning): 과적합(overfitting)을 방지하기 위해 학습 후에 불필요한 분기를 제거하는 과정이 수행된다. 사전 가지치기(pre-pruning)와 사후 가지치기(post-pruning)가 있다.

주요 알고리즘

알고리즘	주요 특징
ID3 (Iterative Dichotomiser 3)	엔트로피 기반 정보 이득을 사용하여 특성을 선택
C4.5	연속형 특성 처리, 가지치기, 누락값 처리 기능 포함
CART (Classification and Regression Trees)	지니 불순도(분류)와 평균 제곱오차(회귀) 사용, 이진 트리 구조
CHAID (Chi-squared Automatic Interaction Detector)	카이제곱 검정을 이용해 다중 분기 가능

학습 과정 요약

특성 선택: 후보 특성 중 최적의 분할 기준을 제공하는 특성을 선택한다.
노드 분할: 선택된 특성에 따라 데이터 집합을 두 개 이상의 하위 집합으로 나눈다.
재귀적 적용: 각 하위 집합에 대해 1~2 과정을 반복한다.
정지 조건 검토: 사전 정의된 정지 기준을 만족하면 분할을 중단하고 말단 노드를 만든다.
가지치기 (선택적): 학습된 트리를 검증 데이터 혹은 교차 검증을 통해 평가하고, 불필요한 분기를 제거한다.

장점

직관적인 시각화가 가능하여 모델 해석이 용이하다.
범주형·연속형 특성을 혼합하여 사용할 수 있다.
비교적 빠른 학습 속도와 예측 속도를 제공한다.

단점

복잡한 비선형 관계를 잘 포착하지 못하고, 깊은 트리는 과적합 위험이 크다.
작은 변동에도 트리 구조가 크게 변할 수 있어 불안정성을 보인다(특히 단일 결정 트리).
다중 클래스 문제가 있는 경우, 클래스 불균형에 민감할 수 있다.

응용 분야

의료 진단(질병 위험도 평가)
금융 사기 탐지
고객 세분화 및 마케팅 전략 수립
자연어 처리(문서 분류)
이미지 인식(특성 기반 전처리 단계)

참고 문헌 (대표)

Quinlan, J. R. (1986). Induction of decision trees. Machine Learning, 1(1), 81–106.
Breiman, L., Friedman, J. H., Olshen, R. A., & Stone, C. J. (1984). Classification and Regression Trees. Wadsworth.
Friedman, J. H. (2001). Greedy function approximation: A gradient boosting machine. Annals of Statistics, 29(5), 1189–1232.

(※ 위 내용은 공개된 학술 자료 및 교과서 등을 기반으로 정리된 것으로, 최신 연구 동향에 따라 추가·수정될 수 있다.)

하나의 검색으로 의미, 맥락, 관련 주제까지 바로 찾으세요.