p-해킹은 통계 분석 과정에서 연구자가 의도적으로 또는 무의식적으로 p값을 기준으로 유의미한 결과를 얻기 위해 데이터 선정, 변수 선택, 분석 방법, 가설 설정 등을 반복적으로 조정하는 행동을 의미한다. 이러한 조작은 실제 효과가 없거나 매우 작은 현상에 대해서도 통계적으로 유의한 결과(p < 0.05)를 도출하게 하여, 연구 결과의 신뢰성을 저해한다.
정의
p-해킹은 다음과 같은 방식으로 이루어질 수 있다.
- 다중 비교(multiple comparisons): 여러 가설을 동시에 검정하고, 유의한 결과가 나타난 일부만 보고한다.
- 데이터마이닝(data mining): 사후 분석(post‑hoc)으로 여러 변수 조합을 시험하고, 유의한 조합만 선택한다.
- 샘플 사이즈 조정: 통계적 유의성을 얻을 때까지 샘플을 추가하거나 제외한다.
- 분석 방법 변경: 가정에 맞는 통계 모델을 선택하거나, 통계 처리를 반복하여 유의성을 확보한다.
- 결과 보고 선택적: 유의하지 않은 결과는 보고서에서 누락하거나 “추가 분석 필요” 등으로 전환한다.
배경 및 용어 기원
- p‑값(p‑value)은 귀무가설이 참일 때 관측된 데이터가 나타날 확률을 나타내는 지표이며, 많은 과학 분야에서 0.05 이하를 ‘통계적 유의성’의 기준으로 사용한다.
- “p‑hacking”이라는 용어는 2000년대 초반부터 메타연구와 재현 가능성 위기의 논의에서 등장했으며, 특히 John Ioannidis(2005)의 “Why Most Published Research Findings Are False”와 같은 연구에서 데이터 분석 과정의 선택적 보고가 연구 신뢰성을 저해한다는 비판과 함께 널리 알려졌다.
주요 사례 및 연구
- 심리학·의학 분야: 다수의 메타분석에서 p‑해킹이 실제 효과 크기를 과대평가하고, 재현 실패율을 높인다는 증거가 보고되었다.
- 경제학·사회과학: 다중 회귀 모델에서 변수 선택을 반복하는 경우, 우연히 유의한 결과가 나타날 확률이 크게 증가한다는 실증 연구가 있다.
영향
- 재현 가능성 저하: p‑해킹으로 인한 결과는 동일한 조건에서 다시 실험·조사했을 때 재현되지 않을 가능성이 높다.
- 정책·임상 결정 오류: 과학적 근거가 왜곡되어 정책 입안이나 의료 처방 등에 잘못된 영향을 미칠 수 있다.
- 학술 출판 문화: “유의미한 결과”에 대한 출판 편향(publication bias)이 강화되어, 부정적·무효 결과가 무시되는 현상이 심화된다.
방지·대처 방안
- 프리레지스트리(pre‑registration): 연구 계획과 분석 방법을 사전에 공개·등록한다.
- 다중 검정 보정: Bonferroni, FDR 등의 통계적 보정 방법을 적용한다.
- 투명한 데이터·코드 공유: 원자료와 분석 코드를 공개하여 검증 가능성을 높인다.
- 통계 교육 강화: 연구자에게 올바른 통계 해석 및 연구 설계 교육을 제공한다.
관련 용어
- 다중 비교 문제(multiple comparisons problem)
- 출판 편향(publication bias)
- 재현 가능성 위기(reproducibility crisis)
- 프리레지스트리(pre‑registration)
참고 문헌
- Ioannidis, J. P. A. (2005). Why Most Published Research Findings Are False. PLoS Medicine.
- Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). False‑Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant. Psychological Science.
- Head, M. L., Holman, L., Lanfear, R., Kahn, A. T., & Jennions, M. D. (2015). The Extent and Consequences of P‑Hacking in Science. PLoS Biology.
(위 내용은 현재까지 학술 문헌에 기반한 객관적 서술이며, 최신 연구 동향에 따라 추가·수정될 수 있다.)