[내일배움 본캠프] 통계를 이용한 데이터 분석

내일배움 본캠프

[내일배움 본캠프] 통계를 이용한 데이터 분석

hyeon-ji 2026. 6. 22. 20:43

☆ To Do List ☆

AI 진단퀴즈
라이브세션 수강(11:00, 19:30)
기초 통계 챕터 5수강
머신러닝 기초 완강하기
자소서 작성
TIL 작성 및 제출

🤖 에이타니

● RMSE(Root Mean Squared Error)

MSE의 제곱근(square root)을 취한 값을 말한다.

MSE와 달리 원래 데이터와 동일한 단위를 가지므로 해석이 더 직관적이다.

파이썬 코드 : np.sqrt(mse)

📊기초통계

1. 데이터 분석의 전체 흐름

2. 모수검정과 비모수검정

구분	모수검정	비모수검정
전제 조건	정규성 만족	정규성 불필요
비교 기준	평균	순위(Rank), 중앙값
대표 검정	t-test, ANOVA	Mann-Whitney, Wilcoxon, Kruskal-Wallis
사용 상황	연속형 데이터	순위형, 비정규 데이터

☞ 비모수 검정

검정명	비교 대상	사용 예시
Mann-Whitney U Test	독립 2집단	남녀 만족도 비교
Wilcoxon Test	대응 2집단	교육 전후 점수 비교
Kruskal-Wallis Test	독립 3집단 이상	공정 A/B/C 생산량 비교
Chi-square Test	범주형 독립성	성별 vs 과목 선호

3. 정규성 검정

→ 모수검정을 수행하기 위해서는 데이터가 '정규분포'를 따르는지 확인해야 한다.

● Shapiro-Wilk Test

가장 널리 사용되는 정규정 검정 방법
표본 수가 적어도 사용 가능하다
귀무가설 : 데이터는 정규분포를 따른다

☞ 해석

p > 0.05 → 정규성을 만족함
p < 0.05 → 정규성을 만족하지 않음 → 비모수 검정 사용

● Q-Q Plot(Quantile-Quantile Plot)

데이터가 정규분포를 따르는지를 시각적으로 확인하는 방법
데이터 점들이 직선에 가깝게 위치하면 정규성 가정이 만족
선에서 멀리 떨어진 점이 많다면 정규성 위배 가능성이 있다

4. t-test

→ 세 개 이상의 집단(그룹) 간의 평균에 통계적으로 유의미한 차이가 있는지를 검증하는 데 사용되는 통계 기법

비고	단일표본 t-test	대응표본 t-test	독립표본 t-test
사용 상황	기준값과 비교	같은 집단 전후 비교	서로 다른 두 집단 비교
예시	현재 공정 온도가 기준 온도와 다른가?	설비 교체 전후 불량률 차이가 있는가?	A라인과 B라인 제품 품질 차이가 있는가?

5. ANOVA(분산분석)

→ 분산분석(Analysis of Variance, ANOVA)은 세 개 이상의 집단(그룹) 간의 평균에 통계적으로 유의미한 차이가 있는지를 검증하는 데 사용되는 통계 기법

집단 간 분산 (Between-group variance): 각 그룹의 평균이 전체 데이터의 평균과 얼마나 다른지 나타낸다. (그룹 간 차이가 클수록 이 분산이 커짐), 그룹 평균들 사이의 "차이"를 설명한다.
집단 내 분산 (Within-group variance): 각 그룹 내부의 데이터가 얼마나 흩어져 있는지 나타낸다. (그룹 내 데이터가 비슷할수록 이 분산이 작아짐), 같은 그룹 안에서의 "오차"나 "잡음"을 설명한다.

● 기본 가정

→ 정규성, 독립성, 등분산성을 만족해야지 ANOVA분석 사용이 가능하다.

● F-값 (F-statistic)

F-값이 크다 → 집단 간 차이가 집단 내 변동보다 크므로, 그룹 간 평균 차이가 통계적으로 유의하다
F-값이 작다 → 그룹 간 평균 차이가 크지 않으며, 집단 내의 오차에 비해 뚜렷한 차이가 없으므로, 유의미한 차이가 없다

6. 상관분석

→ 두 변수 간 관계를 확인하는 방법

● 공분산

→ 두 변수가 함께 움직이는 정도, 단위의 영향을 받는다.

● 상관계수

→ 공분산을 표준화한 값. -1 ~ 1 사이의 값을 가진다.

○ 상관계수 종류

▷ 모수 상관계수

☞ Pearson

선형적인 관계가 예상될 때 사용한다
비선형 관계에서는 사용할 수 없다
연속형과 정규성을 만족할 때 사용 가능하다

▷ 비모수 상관계수

데이터가 정규분포를 따르지 않거나 변수들이 순서형 데이터일 때 사용하는 상관계수
데이터의 분포에 대한 가정 없이 두 변수 간의 상관관계를 측정할 때 사용한다

☞ Spearman

두 변수의 순위 간의 일관성을 측정
순위형 또는 비정규 데이터인 경우 사용 가능하다
켄달의 타우 상관계수 보다 데이터 내 편차와 에러에 민감

☞ Kendall Tau

순위 간의 일치 쌍 및 불일치 쌍의 비율을 바탕으로 계산
소규모 순위 데이터인 경우 사용 가능하다
예를들어 사람의 키와 몸무게에 대해 상관계수를 알고자 할 때 키가 크고 몸무게도 더 나가면 일치 쌍에 해당, 키가 크지만 몸무게가 더 적으면 불일치 쌍에 해당 이들의 개수 비율로 상관계수를 결정

○ 모수 & 비모수 공통점과 차이점

☞ 공통점 : 상관계수 값은 -1 ~ 1사이의 값을 가진다.

☞ 차이점 : 데이터가 연속성에 차이가 있다.

▷ 상호정보 상관계수

→ 숫자로 이루어지지 않은 범주형일 때나 숫자로 이루어져 있는 데이터나 모든 상황에서 상호 정보량 계산 가능하다

※ 상관관계는 인과관계와 같지 않다. '온도가 증가할수록 불량률 증가'라는 상관관계 결과가 나왔다고 해서, '온도가 불량을 발생시킨다'로 단정할 수는 없다.

7. 회귀분석

→ 어떤 변수가 결과에 얼마나 영향을 주는지 분석하는 방법

● 회귀모형 평가 지표

☞ R² : 범위 0~1사이에서 표현되며, 회귀모형이 종속변수를 얼마나 설명하는지를 나타낸다. 값이 클수록 좋은 모델

☞ Adjusted R² : 독립변수 개수를 고려한 평가지표이며, 변수가 많아질수록 값이 무조건 증가하므로 보정하기 위해 사용한다

☞ F-test : 회귀모형 전체의 유의성을 확인하기 위해 사용한다

☞ t-test : 각 독립변수의 유의성을 확인하기 위해 사용한다

8. 다중공선성

→ 독립변수들끼리 높은 상관관계를 가지게 될 시 발생하는 문제점이다.

'내일배움 본캠프' 카테고리의 다른 글

[내일배움 본캠프]EDA와 데이터 전처리 (0)	2026.06.24
[내일배움 본캠프] 통계에서 재현성의 중요성 (0)	2026.06.23
[내일배움 본캠프] 가설검증(통계) (0)	2026.06.19
[내일배움 본캠프] 기술통계 (0)	2026.06.18
[내일배움 본캠프] 기초통계와 머신러닝 (0)	2026.06.17

현재글[내일배움 본캠프] 통계를 이용한 데이터 분석

hyeon-ji 님의 블로그

@스파르타 QAQC_6기 캠프에서의 활동 기록@

SQL, 사전캠프, 데이터 시각화, 데이터 전처리, 내일배움, 파이썬, 데이터 리터러시, 라이브러리, 가설검증, Til, 전처리, 아티클 스터디, 상관계수, Python, 프로젝트, 팀 프로젝트, 머신러닝, 결측치, 데이터 분석, 이상치,

Today :
Yesterday :

hyeon-ji 님의 블로그