특징 선택(feature selection)은 데이터 분석 및 기계학습에서 사용되는 전처리 단계 중 하나로, 주어진 데이터 집합에서 학습 모델의 성능을 최적화하기 위해 불필요하거나 중복된 변수를 제거하고, 목표 변수와 가장 높은 관련성을 가진 변수(특징)만을 선별하는 과정을 말한다. 특징 선택은 차원 축소(dimensionality reduction)의 한 형태로, 모델의 복잡성을 감소시키고 과적합(overfitting) 위험을 완화하며, 학습 및 예측 속도를 향상시키는 효과가 있다.
정의
특징 선택은 전체 특징 집합 X = {x₁, x₂, …, xₙ} 중에서 부분 집합 S ⊆ X 를 선택하는 과정이다. 선택된 특징 집합 S 는 모델의 예측 정확도, 일반화 성능, 해석 가능성 등을 기준으로 평가된다.
주요 방법
특징 선택 방법은 크게 세 가지 범주로 구분된다.
| 구분 | 설명 | 대표적 알고리즘 |
|---|---|---|
| 필터 방법 (Filter) | 각 특징을 개별적으로 통계적 측도(예: 상관계수, χ² 검정, 정보 이득 등)로 평가하고, 사전 정의된 임계값을 초과하는 특징을 선택한다. | 상관계수 기반 선택, χ² 검정, 정보 이득(Information Gain) |
| 랩퍼 방법 (Wrapper) | 선택된 특징 집합을 이용해 실제 학습 모델을 훈련시킨 후, 모델의 성능을 평가하여 특징 집합을 반복적으로 수정한다. 탐색 전략으로는 전진 선택(Forward Selection), 후진 제거(Backward Elimination), 단계적 선택(Stepwise Selection) 등이 있다. | 전진 선택, 후진 제거, 유전 알고리즘 기반 랩퍼 |
| 임베디드 방법 (Embedded) | 모델 학습 과정 자체에 특징 선택 메커니즘을 내재시킨다. 모델이 학습하면서 자동으로 중요하지 않은 특징의 가중치를 0에 가깝게 만든다. | Lasso(ℓ₁ 정규화), 트리 기반 모델의 특성 중요도(예: Random Forest, Gradient Boosting) |
적용 분야
- 의료 데이터 분석: 환자 기록에서 진단에 핵심적인 바이오마커를 식별
- 텍스트 마이닝: 문서 분류 작업에서 고빈도·저빈도 단어를 제외하고 의미 있는 토큰만 선택
- 이미지 처리: 이미지 특징 추출 단계에서 불필요한 픽셀 혹은 채널을 제거
- 금융 모델링: 신용 평가 모델에서 중요한 재무 지표를 선별
장점 및 한계
장점
- 학습 시간 단축 및 메모리 사용 감소
- 모델 해석 용이성 향상
- 과적합 방지 효과
한계
- 특징 선택 과정 자체가 추가적인 계산 비용을 요구할 수 있다.
- 필터 방법은 변수 간 상호작용을 고려하지 못하는 경우가 있다.
- 랩퍼 및 임베디드 방법은 선택된 모델에 종속적이며, 다른 모델에 적용 시 성능 차이가 발생할 수 있다.
관련 용어
- 차원 축소(Dimensionality Reduction)
- 특징 추출(Feature Extraction)
- 모델 일반화(Generalization)
참고 문헌
백과사전 정보는 일반적인 학술 교재 및 리뷰 논문에 기술된 내용에 기반한다. 구체적인 출처는 별도 확인이 필요하다.