내일배움 본캠프

[내일배움 본캠프] 통계에서 재현성의 중요성

hyeon-ji 2026. 6. 23. 20:57

☆ To Do List ☆

  • AI 진단퀴즈
  • 기초통계 완강하기
  • 라이브세션(19:30)
  • 자소서 작성하기
  • TIL 작성 및 제출

🤖 에이타니

● MSE (Mean Squared Error)

  • 오차를 제곱하여 평균을 내는 지표
  • 오차를 제곱하기 때문에 오차가 1보다 큰 경우 그 값이 기하급수적으로 증가하게 되어, 큰 오차를 발생시키는 예측에 더 큰 페널티를 줄 수 있음

 

 MAE (Mean Absolute Error)

  • 오차의 절대값(Absolute Value)을 평균낸 지표
  • 오차를 제곱하지 않고 절대값으로 계산하기 때문에 모든 오차를 동일한 비중으로 반영함
  • 이상치(Outlier)의 영향이 MSE보다 적으며, 실제 예측값이 평균적으로 얼마나 벗어났는지를 직관적으로 해석할 수 있음

 

 MAPE (Mean Absolute Percentage Error)

  • 실제값 대비 오차의 비율(%)을 계산한 후 평균낸 지표
  • 예측 오차를 백분율로 표현하기 때문에 데이터의 단위와 관계없이 모델 성능을 해석 가능
  • 예를 들어 MAPE가 10%라면 예측값이 실제값에서 평균적으로 10% 정도 벗어났음을 의미함. 다만 실제값이 0에 가깝거나 0인 경우 값이 매우 커지거나 계산이 불가능하다는 단점 존재

 

 R²(결정계수)

  • 모델이 데이터의 분산을 얼마나 설명하는지를 나타낸 상대적 지표
  • 값 자체에 단위가 포함되지 않는 무차원(Dimensionless) 지표이므로 타겟 변수의 단위(Scale)에 무관하며, 특성이 다른 여러 데이터셋 간의 성능을 직접 비교할 때 매우 유용함

📊기초통계

항상 통계로 데이터 분석을 진행할 때에는 언제 어디서든, 어떤 사람이 진행하든 동일한 결과가 나와야 한다.

 

재현성(Reproducibility)이란?

재현성이란 동일한 연구나 실험을 반복했을 때 비슷한 결과가 다시 나타나는지를 의미한다. 연구 결과의 신뢰성을 판단하는 중요한 기준이고, 최근 학계에서는 동일한 논문을 다시 실험했을 때 같은 결과가 나오지 않는 재현성 위기(Reproducibility Crisis) 가 큰 문제로 대두되고 있다.

 

재현성 위기가 발생하는 이유

1. 실험 조건을 완전히 동일하게 재현하기 어렵다

실제 연구에서는 환경, 대상, 측정 방법 등의 차이로 인해 동일한 실험을 완벽하게 반복하기 어렵다. 또한 통계 검정 자체도 오류 가능성을 포함하고 있기 때문에 항상 같은 결과가 나오는 것은 아니다.

 

2. 가설검정의 잘못된 사용

통계 분석 과정에서 연구자가 의도적으로 혹은 무의식적으로 유리한 결과만 선택하면 재현성이 크게 떨어진다.

 

대표적인 사례로는 p-해킹(p-hacking) 이 있다.

 

p-해킹(P-Hacking)이란?

p-해킹은 유의수준(일반적으로 0.05) 이하의 결과가 나올 때까지 반복적으로 데이터를 분석하거나 조건을 변경하는 행위를 의미한다.

  • 여러 변수를 반복적으로 시도하는 경우
  • 원하는 결과가 나올 때까지 데이터를 계속 수집하는 경우
  • 여러 분석 결과 중 유의한 결과만 보고하는 경우

문제점

p-해킹은 실제로는 의미 없는 결과를 의미 있는 결과처럼 보이게 만들 수 있으며, 연구 결과의 신뢰성을 크게 저하시킨다.

 

선택적 보고(Selective Reporting)

선택적 보고란 수행한 모든 분석 결과를 공개하지 않고, 통계적으로 유의한 결과만 발표하는 행위를 의미한다.

예를 들어 20개의 가설을 검정했는데 그중 1개만 유의하게 나왔다면, 해당 결과만 보고할 경우 실제 효과보다 과장된 결론을 내릴 수 있다.

따라서 연구에서는 유의한 결과뿐 아니라 유의하지 않은 결과도 함께 보고하는 것이 중요하다.

 

데이터 수집 중단 시점의 중요성

데이터 수집을 시작하기 전에 언제 데이터를 수집할지 미리 결정해야 한다.

만약 연구 도중 결과를 확인하면서 데이터를 추가 수집한다면 특정 시점에서 우연히 유의한 결과가 나올 수 있다.

  • 원래 50명을 조사하기로 계획
  • 결과가 유의하지 않음
  • 100명까지 추가 조사
  • 우연히 p-value < 0.05 달성

위와 같은 경우, 결과가 왜곡될 가능성이 존재한다.

 

데이터 탐색과 검증의 분리

좋은 분석은 탐색(Exploration)검증(Validation) 을 구분한다.

탐색 단계

  • 데이터 패턴 확인
  • 변수 관계 탐색
  • 새로운 가설 생성

검증 단계

  • 독립된 데이터로 가설 검증
  • 실제로 동일한 결과가 재현되는지 확인

머신러닝의 Train/Test 데이터 분리 역시 같은 개념으로 볼 수 있다.

 

재현성을 높이기 위한 방법

✔ 가설을 사전에 명확히 설정하기

✔ 모든 분석 결과를 투명하게 공개하기

✔ 데이터 수집 계획을 미리 정하기

✔ p-value만 보지 않고 효과크기(Effect Size)도 함께 확인하기

✔ 탐색용 데이터와 검증용 데이터를 분리하기

✔ 다중 검정을 수행할 경우 보정(Bonferroni Correction 등) 적용하기