특징 선택

특징 선택(feature selection)은 데이터 분석 및 기계학습에서 사용되는 전처리 단계 중 하나로, 주어진 데이터 집합에서 학습 모델의 성능을 최적화하기 위해 불필요하거나 중복된 변수를 제거하고, 목표 변수와 가장 높은 관련성을 가진 변수(특징)만을 선별하는 과정을 말한다. 특징 선택은 차원 축소(dimensionality reduction)의 한 형태로, 모델의 복잡성을 감소시키고 과적합(overfitting) 위험을 완화하며, 학습 및 예측 속도를 향상시키는 효과가 있다.

정의

특징 선택은 전체 특징 집합 X = {x₁, x₂, …, xₙ} 중에서 부분 집합 SX 를 선택하는 과정이다. 선택된 특징 집합 S 는 모델의 예측 정확도, 일반화 성능, 해석 가능성 등을 기준으로 평가된다.

주요 방법

특징 선택 방법은 크게 세 가지 범주로 구분된다.

구분 설명 대표적 알고리즘
필터 방법 (Filter) 각 특징을 개별적으로 통계적 측도(예: 상관계수, χ² 검정, 정보 이득 등)로 평가하고, 사전 정의된 임계값을 초과하는 특징을 선택한다. 상관계수 기반 선택, χ² 검정, 정보 이득(Information Gain)
랩퍼 방법 (Wrapper) 선택된 특징 집합을 이용해 실제 학습 모델을 훈련시킨 후, 모델의 성능을 평가하여 특징 집합을 반복적으로 수정한다. 탐색 전략으로는 전진 선택(Forward Selection), 후진 제거(Backward Elimination), 단계적 선택(Stepwise Selection) 등이 있다. 전진 선택, 후진 제거, 유전 알고리즘 기반 랩퍼
임베디드 방법 (Embedded) 모델 학습 과정 자체에 특징 선택 메커니즘을 내재시킨다. 모델이 학습하면서 자동으로 중요하지 않은 특징의 가중치를 0에 가깝게 만든다. Lasso(ℓ₁ 정규화), 트리 기반 모델의 특성 중요도(예: Random Forest, Gradient Boosting)

적용 분야

  • 의료 데이터 분석: 환자 기록에서 진단에 핵심적인 바이오마커를 식별
  • 텍스트 마이닝: 문서 분류 작업에서 고빈도·저빈도 단어를 제외하고 의미 있는 토큰만 선택
  • 이미지 처리: 이미지 특징 추출 단계에서 불필요한 픽셀 혹은 채널을 제거
  • 금융 모델링: 신용 평가 모델에서 중요한 재무 지표를 선별

장점 및 한계

장점

  • 학습 시간 단축 및 메모리 사용 감소
  • 모델 해석 용이성 향상
  • 과적합 방지 효과

한계

  • 특징 선택 과정 자체가 추가적인 계산 비용을 요구할 수 있다.
  • 필터 방법은 변수 간 상호작용을 고려하지 못하는 경우가 있다.
  • 랩퍼 및 임베디드 방법은 선택된 모델에 종속적이며, 다른 모델에 적용 시 성능 차이가 발생할 수 있다.

관련 용어

  • 차원 축소(Dimensionality Reduction)
  • 특징 추출(Feature Extraction)
  • 모델 일반화(Generalization)

참고 문헌

백과사전 정보는 일반적인 학술 교재 및 리뷰 논문에 기술된 내용에 기반한다. 구체적인 출처는 별도 확인이 필요하다.

둘러보기

더 찾아볼 만한 주제