정의
다중 레이블 분류(Multi-label Classification)는 하나의 입력 샘플에 대해 두 개 이상의 레이블(label)을 동시에 할당하는 기계 학습의 한 분야이다. 이는 전통적인 단일 레이블 분류(Single-label Classification)와 달리, 각 샘플이 복수의 클래스나 범주에 속할 수 있음을 전제로 한다.
개요
다중 레이블 분류는 자연어 처리, 이미지 인식, 생물정보학, 문서 분류 등 다양한 분야에서 활용된다. 예를 들어, 하나의 문서가 "정치", "경제" 두 가지 주제를 다룬다면, 이 문서는 두 레이블을 동시에 가질 수 있다. 마찬가지로, 하나의 이미지가 "강아지", "풀밭", "외출" 등의 요소를 포함할 경우, 각각의 레이블이 동시에 부여될 수 있다. 이러한 문제를 해결하기 위해 여러 알고리즘과 접근 방식이 제안되었으며, 대표적으로 Binary Relevance, Classifier Chains, Label Powerset, 그리고 다양한 딥러닝 기반 모델들이 사용된다.
어원/유래
"다중 레이블 분류"는 영어 단어 "Multi-label Classification"의 직역이다. 여기서 "multi-"는 '여러 개의'를 의미하고, "label"은 '라벨' 또는 '범주'를, "classification"은 '분류'를 의미한다. 이 용어는 기계 학습 및 패턴 인식 분야에서 2000년대 초반부터 본격적으로 사용되기 시작하였으며, 특히 복합적인 데이터의 특성을 더 정확하게 반영하기 위한 필요성에 따라 연구가 활발히 진행되었다.
특징
다중 레이블 분류의 주요 특징은 다음과 같다.
- 각 샘플은 하나 이상의 레이블을 가질 수 있다.
- 레이블 간에 상관관계가 존재할 수 있으므로, 이를 고려한 모델링이 중요하다.
- 평가 지표가 단일 레이블 분류와 다르며, 예를 들어 정밀도(Precision), 재현율(Recall), F1 스코어의 다중 레이블 확장 형태인 예제 기반 혹은 레이블 기반 지표들이 사용된다.
- 레이블의 조합 수가 많아지면 계산 복잡도가 증가하며, 희소성(Sparsity) 문제도 발생할 수 있다.
관련 항목
- 단일 레이블 분류 (Single-label Classification)
- 기계 학습 (Machine Learning)
- 지도 학습 (Supervised Learning)
- 다중 클래스 분류 (Multi-class Classification)
- 자연어 처리 (Natural Language Processing)
- 딥러닝 (Deep Learning)
- 분류 알고리즘 (Classification Algorithms)