F 스코어

정의

F 스코어(또는 F1 점수, F-measure)는 분류 모델의 정확도를 평가하기 위해 사용되는 통계적 지표로, 정밀도(Precision)재현율(Recall)의 조화 평균(Harmonic Mean)이다. 두 값이 모두 높은 경우에 높은 F 스코어가 부여되며, 특히 불균형 데이터셋에서 모델의 전반적인 성능을 균형 있게 평가하는 데 유용하다.

수식

$$ \text{F}_\beta = (1 + \beta^2) \times \frac{\text{Precision} \times \text{Recall}}{(\beta^2 \times \text{Precision}) + \text{Recall}} $$

  • F1 스코어(β=1) : 정밀도와 재현율을 동등하게 가중치 부여
    $$ \text{F1} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} $$

  • Fβ 스코어(β≠1) : 재현율에 β배의 가중치를 두고 싶을 때 사용

    • β>1 : 재현율에 더 큰 비중
    • β<1 : 정밀도에 더 큰 비중

구성 요소

  • 정밀도(Precision) : 모델이 양성이라고 예측한 샘플 중 실제 양성인 비율
    $$ \text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}} $$
  • 재현율(Recall) : 실제 양성 샘플 중 모델이 양성으로 정확히 찾은 비율
    $$ \text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}} $$
  • TP(True Positive), FP(False Positive), FN(False Negative) 은 혼동 행렬(confusion matrix)에서 정의되는 기본 용어이다.

역사·배경

F 스코어는 1970년대 정보 검색 분야에서 처음 제안되었으며, 이후 기계 학습, 자연어 처리, 의료 진단 등 다양한 분야의 이진·다중 클래스 분류 문제에 널리 적용되었다. 특히 불균형 클래스가 존재하는 상황에서 정확도(Accuracy)보다 더 신뢰할 수 있는 성능 지표로 인정받고 있다.

주요 활용 분야

분야 활용 사례
자연어 처리(NLP) 텍스트 분류, 개체명 인식(NER), 감성 분석
의료 진단 질병 검출 모델에서 민감도(재현율)와 특이도(정밀도) 균형
스팸 필터링 스팸 메일을 놓치지 않으면서 정상 메일 오분류 최소화
컴퓨터 비전 객체 검출, 이미지 분할에서 픽셀 수준의 정확도 평가
정보 검색 검색 결과의 관련성(Precision)과 누락된 관련 문서(Recall) 균형

장점

  • 불균형 데이터에 강함 : 소수 클래스의 성능을 강조해 과대 평가 방지
  • 단일 지표 : 정밀도와 재현율을 동시에 고려해 모델 선택이 용이
  • 가중치 조절 : β 파라미터를 통해 특정 목적에 맞게 정밀도·재현율 비중을 조정 가능

한계점

  • 특정 상황에 비대칭 : 경우에 따라 정밀도와 재현율이 서로 상충될 수 있음
  • 다중 클래스 확장 : 다중 클래스 문제에서는 마크로(Macro)·마이크로(Micro) 평균 등 추가적인 계산이 필요
  • 비용 고려 부족 : FP와 FN의 실제 비용 차이를 반영하지 않음(비용 민감도 분석이 필요할 경우 다른 지표와 병행 사용)

관련 용어

  • 정밀도(Precision), 재현율(Recall)
  • ROC Curve, AUC (Area Under Curve)
  • 교차 검증(Cross‑validation)
  • 마크로 평균(Macro‑average), 마이크로 평균(Micro‑average)
  • Fβ 스코어, F2 스코어

참고문헌

  1. Van Rijsbergen, C. J. (1979). Information Retrieval (2nd ed.). Butterworth.
  2. S. Yang, J. Liu, “A Comprehensive Review of Evaluation Metrics for Classification Models,” Pattern Recognition Letters, 2020.
  3. Scikit‑learn documentation, “Metrics and scoring: precision, recall, f1‑score,” https://scikit-learn.org/stable/modules/model_evaluation.html (accessed 2026).

위와 같이 F 스코어는 정밀도와 재현율을 균형 있게 반영하는 핵심 성능 지표이며, 다양한 분야에서 모델 선택 및 튜닝에 널리 활용되고 있다.

둘러보기

더 찾아볼 만한 주제