내일배움 본캠프

[내일배움 본캠프] 통계를 이용한 데이터 분석

hyeon-ji 2026. 6. 22. 20:43

☆ To Do List ☆

  • AI 진단퀴즈
  • 라이브세션 수강(11:00, 19:30)
  • 기초 통계 챕터 5수강
  • 머신러닝 기초 완강하기
  • 자소서 작성
  • TIL 작성 및 제출

🤖 에이타니

● RMSE(Root Mean Squared Error)

MSE의 제곱근(square root)을 취한 값을 말한다.

MSE와 달리 원래 데이터와 동일한 단위를 가지므로 해석이 더 직관적이다.

파이썬 코드 : np.sqrt(mse)


📊기초통계

1. 데이터 분석의 전체 흐름

 

2. 모수검정과 비모수검정

구분 모수검정 비모수검정
전제 조건 정규성 만족 정규성 불필요
비교 기준 평균 순위(Rank), 중앙값
대표 검정 t-test, ANOVA Mann-Whitney, Wilcoxon, Kruskal-Wallis
사용 상황 연속형 데이터 순위형, 비정규 데이터

 

☞ 비모수 검정

검정명 비교 대상 사용 예시
Mann-Whitney U Test 독립 2집단 남녀 만족도 비교
Wilcoxon Test 대응 2집단 교육 전후 점수 비교
Kruskal-Wallis Test 독립 3집단 이상 공정 A/B/C 생산량 비교
Chi-square Test 범주형 독립성 성별 vs 과목 선호

 

3. 정규성 검정

→ 모수검정을 수행하기 위해서는 데이터가 '정규분포'를 따르는지 확인해야 한다.

 

Shapiro-Wilk Test

  • 가장 널리 사용되는 정규정 검정 방법
  • 표본 수가 적어도 사용 가능하다
  • 귀무가설 : 데이터는 정규분포를 따른다

☞ 해석

  • p > 0.05 → 정규성을 만족함
  • p < 0.05 → 정규성을 만족하지 않음 → 비모수 검정 사용

Q-Q Plot(Quantile-Quantile Plot)

  • 데이터가 정규분포를 따르는지를 시각적으로 확인하는 방법
  • 데이터 점들이 직선에 가깝게 위치하면 정규성 가정이 만족
  • 선에서 멀리 떨어진 점이 많다면 정규성 위배 가능성이 있다

 

4. t-test

세 개 이상의 집단(그룹) 간의 평균에 통계적으로 유의미한 차이가 있는지를 검증하는 데 사용되는 통계 기법

비고 단일표본 t-test 대응표본 t-test 독립표본 t-test
사용 상황 기준값과 비교 같은 집단 전후 비교 서로 다른 두 집단 비교
예시 현재 공정 온도가 기준 온도와 다른가? 설비 교체 전후 불량률 차이가 있는가? A라인과 B라인 제품 품질 차이가 있는가?

 

5. ANOVA(분산분석)

→ 분산분석(Analysis of Variance, ANOVA)은 세 개 이상의 집단(그룹) 간의 평균에 통계적으로 유의미한 차이가 있는지를 검증하는 데 사용되는 통계 기법

 

  • 집단 간 분산 (Between-group variance): 각 그룹의 평균이 전체 데이터의 평균과 얼마나 다른지 나타낸다. (그룹 간 차이가 클수록 이 분산이 커짐), 그룹 평균들 사이의 "차이"를 설명한다.
  • 집단 내 분산 (Within-group variance): 각 그룹 내부의 데이터가 얼마나 흩어져 있는지 나타낸다. (그룹 내 데이터가 비슷할수록 이 분산이 작아짐), 같은 그룹 안에서의 "오차"나 "잡음"을 설명한다.

 

기본 가정

정규성, 독립성, 등분산성을 만족해야지 ANOVA분석 사용이 가능하다.

 

F-값 (F-statistic)

  • F-값이 크다 → 집단 간 차이가 집단 내 변동보다 크므로, 그룹 간 평균 차이가 통계적으로 유의하다
  • F-값이 작다 → 그룹 간 평균 차이가 크지 않으며, 집단 내의 오차에 비해 뚜렷한 차이가 없으므로, 유의미한 차이가 없다

6. 상관분석

 두 변수 간 관계를 확인하는 방법

 

● 공분산

→ 두 변수가 함께 움직이는 정도, 단위의 영향을 받는다.

 

● 상관계수

→ 공분산을 표준화한 값. -1 ~ 1 사이의 값을 가진다.

 

○ 상관계수 종류

 

▷ 모수 상관계수

Pearson

  • 선형적인 관계가 예상될 때 사용한다
  • 비선형 관계에서는 사용할 수 없다
  • 연속형과 정규성을 만족할 때 사용 가능하다

▷ 비모수 상관계수

  • 데이터가 정규분포를 따르지 않거나 변수들이 순서형 데이터일 때 사용하는 상관계수
  • 데이터의 분포에 대한 가정 없이 두 변수 간의 상관관계를 측정할 때 사용한다

 

Spearman

  • 두 변수의 순위 간의 일관성을 측정
  • 순위형 또는 비정규 데이터인 경우 사용 가능하다
  • 켄달의 타우 상관계수 보다 데이터 내 편차와 에러에 민감

Kendall Tau

  • 순위 간의 일치 쌍 및 불일치 쌍의 비율을 바탕으로 계산
  • 소규모 순위 데이터인 경우 사용 가능하다
  • 예를들어 사람의 키와 몸무게에 대해 상관계수를 알고자 할 때 키가 크고 몸무게도 더 나가면 일치 쌍에 해당, 키가 크지만 몸무게가 더 적으면 불일치 쌍에 해당 이들의 개수 비율로 상관계수를 결정

 모수 & 비모수 공통점과 차이점

☞ 공통점 : 상관계수 값은 -1 ~ 1사이의 값을 가진다.

 차이점 : 데이터가 연속성에 차이가 있다.

 

▷ 상호정보 상관계수

→ 숫자로 이루어지지 않은 범주형일 때나 숫자로 이루어져 있는 데이터나 모든 상황에서 상호 정보량 계산 가능하다

 

※ 상관관계는 인과관계와 같지 않다. '온도가 증가할수록 불량률 증가'라는 상관관계 결과가 나왔다고 해서, '온도가 불량을 발생시킨다'로 단정할 수는 없다.

 

7. 회귀분석

어떤 변수가 결과에 얼마나 영향을 주는지 분석하는 방법

 

 회귀모형 평가 지표

R² : 범위 0~1사이에서 표현되며, 회귀모형이 종속변수를 얼마나 설명하는지를 나타낸다. 값이 클수록 좋은 모델

Adjusted R² : 독립변수 개수를 고려한 평가지표이며, 변수가 많아질수록 값이 무조건 증가하므로 보정하기 위해 사용한다

F-test : 회귀모형 전체의 유의성을 확인하기 위해 사용한다

t-test : 각 독립변수의 유의성을 확인하기 위해 사용한다

 

8. 다중공선성

독립변수들끼리 높은 상관관계를 가지게 될 시 발생하는 문제점이다.