정의
F 스코어(또는 F1 점수, F-measure)는 분류 모델의 정확도를 평가하기 위해 사용되는 통계적 지표로, 정밀도(Precision)와 재현율(Recall)의 조화 평균(Harmonic Mean)이다. 두 값이 모두 높은 경우에 높은 F 스코어가 부여되며, 특히 불균형 데이터셋에서 모델의 전반적인 성능을 균형 있게 평가하는 데 유용하다.
수식
$$ \text{F}_\beta = (1 + \beta^2) \times \frac{\text{Precision} \times \text{Recall}}{(\beta^2 \times \text{Precision}) + \text{Recall}} $$
-
F1 스코어(β=1) : 정밀도와 재현율을 동등하게 가중치 부여
$$ \text{F1} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} $$ -
Fβ 스코어(β≠1) : 재현율에 β배의 가중치를 두고 싶을 때 사용
- β>1 : 재현율에 더 큰 비중
- β<1 : 정밀도에 더 큰 비중
구성 요소
- 정밀도(Precision) : 모델이 양성이라고 예측한 샘플 중 실제 양성인 비율
$$ \text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}} $$ - 재현율(Recall) : 실제 양성 샘플 중 모델이 양성으로 정확히 찾은 비율
$$ \text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}} $$ - TP(True Positive), FP(False Positive), FN(False Negative) 은 혼동 행렬(confusion matrix)에서 정의되는 기본 용어이다.
역사·배경
F 스코어는 1970년대 정보 검색 분야에서 처음 제안되었으며, 이후 기계 학습, 자연어 처리, 의료 진단 등 다양한 분야의 이진·다중 클래스 분류 문제에 널리 적용되었다. 특히 불균형 클래스가 존재하는 상황에서 정확도(Accuracy)보다 더 신뢰할 수 있는 성능 지표로 인정받고 있다.
주요 활용 분야
| 분야 | 활용 사례 |
|---|---|
| 자연어 처리(NLP) | 텍스트 분류, 개체명 인식(NER), 감성 분석 |
| 의료 진단 | 질병 검출 모델에서 민감도(재현율)와 특이도(정밀도) 균형 |
| 스팸 필터링 | 스팸 메일을 놓치지 않으면서 정상 메일 오분류 최소화 |
| 컴퓨터 비전 | 객체 검출, 이미지 분할에서 픽셀 수준의 정확도 평가 |
| 정보 검색 | 검색 결과의 관련성(Precision)과 누락된 관련 문서(Recall) 균형 |
장점
- 불균형 데이터에 강함 : 소수 클래스의 성능을 강조해 과대 평가 방지
- 단일 지표 : 정밀도와 재현율을 동시에 고려해 모델 선택이 용이
- 가중치 조절 : β 파라미터를 통해 특정 목적에 맞게 정밀도·재현율 비중을 조정 가능
한계점
- 특정 상황에 비대칭 : 경우에 따라 정밀도와 재현율이 서로 상충될 수 있음
- 다중 클래스 확장 : 다중 클래스 문제에서는 마크로(Macro)·마이크로(Micro) 평균 등 추가적인 계산이 필요
- 비용 고려 부족 : FP와 FN의 실제 비용 차이를 반영하지 않음(비용 민감도 분석이 필요할 경우 다른 지표와 병행 사용)
관련 용어
- 정밀도(Precision), 재현율(Recall)
- ROC Curve, AUC (Area Under Curve)
- 교차 검증(Cross‑validation)
- 마크로 평균(Macro‑average), 마이크로 평균(Micro‑average)
- Fβ 스코어, F2 스코어 등
참고문헌
- Van Rijsbergen, C. J. (1979). Information Retrieval (2nd ed.). Butterworth.
- S. Yang, J. Liu, “A Comprehensive Review of Evaluation Metrics for Classification Models,” Pattern Recognition Letters, 2020.
- Scikit‑learn documentation, “Metrics and scoring: precision, recall, f1‑score,” https://scikit-learn.org/stable/modules/model_evaluation.html (accessed 2026).
위와 같이 F 스코어는 정밀도와 재현율을 균형 있게 반영하는 핵심 성능 지표이며, 다양한 분야에서 모델 선택 및 튜닝에 널리 활용되고 있다.