☆ To Do List ☆
- AI 진단퀴즈
- 라이브세션 수강(11:00, 19:30)
- 기초 통계 챕터 5수강
- 머신러닝 기초 완강하기
- 자소서 작성
- TIL 작성 및 제출
🤖 에이타니
● RMSE(Root Mean Squared Error)
MSE의 제곱근(square root)을 취한 값을 말한다.
MSE와 달리 원래 데이터와 동일한 단위를 가지므로 해석이 더 직관적이다.
파이썬 코드 : np.sqrt(mse)
📊기초통계
1. 데이터 분석의 전체 흐름

2. 모수검정과 비모수검정
| 구분 | 모수검정 | 비모수검정 |
| 전제 조건 | 정규성 만족 | 정규성 불필요 |
| 비교 기준 | 평균 | 순위(Rank), 중앙값 |
| 대표 검정 | t-test, ANOVA | Mann-Whitney, Wilcoxon, Kruskal-Wallis |
| 사용 상황 | 연속형 데이터 | 순위형, 비정규 데이터 |
☞ 비모수 검정
| 검정명 | 비교 대상 | 사용 예시 |
| Mann-Whitney U Test | 독립 2집단 | 남녀 만족도 비교 |
| Wilcoxon Test | 대응 2집단 | 교육 전후 점수 비교 |
| Kruskal-Wallis Test | 독립 3집단 이상 | 공정 A/B/C 생산량 비교 |
| Chi-square Test | 범주형 독립성 | 성별 vs 과목 선호 |
3. 정규성 검정
→ 모수검정을 수행하기 위해서는 데이터가 '정규분포'를 따르는지 확인해야 한다.
● Shapiro-Wilk Test
- 가장 널리 사용되는 정규정 검정 방법
- 표본 수가 적어도 사용 가능하다
- 귀무가설 : 데이터는 정규분포를 따른다
☞ 해석
- p > 0.05 → 정규성을 만족함
- p < 0.05 → 정규성을 만족하지 않음 → 비모수 검정 사용
● Q-Q Plot(Quantile-Quantile Plot)
- 데이터가 정규분포를 따르는지를 시각적으로 확인하는 방법
- 데이터 점들이 직선에 가깝게 위치하면 정규성 가정이 만족
- 선에서 멀리 떨어진 점이 많다면 정규성 위배 가능성이 있다
4. t-test
→ 세 개 이상의 집단(그룹) 간의 평균에 통계적으로 유의미한 차이가 있는지를 검증하는 데 사용되는 통계 기법
| 비고 | 단일표본 t-test | 대응표본 t-test | 독립표본 t-test |
| 사용 상황 | 기준값과 비교 | 같은 집단 전후 비교 | 서로 다른 두 집단 비교 |
| 예시 | 현재 공정 온도가 기준 온도와 다른가? | 설비 교체 전후 불량률 차이가 있는가? | A라인과 B라인 제품 품질 차이가 있는가? |
5. ANOVA(분산분석)
→ 분산분석(Analysis of Variance, ANOVA)은 세 개 이상의 집단(그룹) 간의 평균에 통계적으로 유의미한 차이가 있는지를 검증하는 데 사용되는 통계 기법
- 집단 간 분산 (Between-group variance): 각 그룹의 평균이 전체 데이터의 평균과 얼마나 다른지 나타낸다. (그룹 간 차이가 클수록 이 분산이 커짐), 그룹 평균들 사이의 "차이"를 설명한다.
- 집단 내 분산 (Within-group variance): 각 그룹 내부의 데이터가 얼마나 흩어져 있는지 나타낸다. (그룹 내 데이터가 비슷할수록 이 분산이 작아짐), 같은 그룹 안에서의 "오차"나 "잡음"을 설명한다.
● 기본 가정
→ 정규성, 독립성, 등분산성을 만족해야지 ANOVA분석 사용이 가능하다.
● F-값 (F-statistic)

- F-값이 크다 → 집단 간 차이가 집단 내 변동보다 크므로, 그룹 간 평균 차이가 통계적으로 유의하다
- F-값이 작다 → 그룹 간 평균 차이가 크지 않으며, 집단 내의 오차에 비해 뚜렷한 차이가 없으므로, 유의미한 차이가 없다
6. 상관분석
→ 두 변수 간 관계를 확인하는 방법
● 공분산
→ 두 변수가 함께 움직이는 정도, 단위의 영향을 받는다.
● 상관계수
→ 공분산을 표준화한 값. -1 ~ 1 사이의 값을 가진다.
○ 상관계수 종류
▷ 모수 상관계수
☞ Pearson
- 선형적인 관계가 예상될 때 사용한다
- 비선형 관계에서는 사용할 수 없다
- 연속형과 정규성을 만족할 때 사용 가능하다
▷ 비모수 상관계수
- 데이터가 정규분포를 따르지 않거나 변수들이 순서형 데이터일 때 사용하는 상관계수
- 데이터의 분포에 대한 가정 없이 두 변수 간의 상관관계를 측정할 때 사용한다

☞ Spearman
- 두 변수의 순위 간의 일관성을 측정
- 순위형 또는 비정규 데이터인 경우 사용 가능하다
- 켄달의 타우 상관계수 보다 데이터 내 편차와 에러에 민감
☞ Kendall Tau
- 순위 간의 일치 쌍 및 불일치 쌍의 비율을 바탕으로 계산
- 소규모 순위 데이터인 경우 사용 가능하다
- 예를들어 사람의 키와 몸무게에 대해 상관계수를 알고자 할 때 키가 크고 몸무게도 더 나가면 일치 쌍에 해당, 키가 크지만 몸무게가 더 적으면 불일치 쌍에 해당 이들의 개수 비율로 상관계수를 결정
○ 모수 & 비모수 공통점과 차이점
☞ 공통점 : 상관계수 값은 -1 ~ 1사이의 값을 가진다.
☞ 차이점 : 데이터가 연속성에 차이가 있다.
▷ 상호정보 상관계수
→ 숫자로 이루어지지 않은 범주형일 때나 숫자로 이루어져 있는 데이터나 모든 상황에서 상호 정보량 계산 가능하다
※ 상관관계는 인과관계와 같지 않다. '온도가 증가할수록 불량률 증가'라는 상관관계 결과가 나왔다고 해서, '온도가 불량을 발생시킨다'로 단정할 수는 없다.
7. 회귀분석
→ 어떤 변수가 결과에 얼마나 영향을 주는지 분석하는 방법
● 회귀모형 평가 지표
☞ R² : 범위 0~1사이에서 표현되며, 회귀모형이 종속변수를 얼마나 설명하는지를 나타낸다. 값이 클수록 좋은 모델
☞ Adjusted R² : 독립변수 개수를 고려한 평가지표이며, 변수가 많아질수록 값이 무조건 증가하므로 보정하기 위해 사용한다
☞ F-test : 회귀모형 전체의 유의성을 확인하기 위해 사용한다
☞ t-test : 각 독립변수의 유의성을 확인하기 위해 사용한다
8. 다중공선성
→ 독립변수들끼리 높은 상관관계를 가지게 될 시 발생하는 문제점이다.

'내일배움 본캠프' 카테고리의 다른 글
| [내일배움 본캠프]EDA와 데이터 전처리 (0) | 2026.06.24 |
|---|---|
| [내일배움 본캠프] 통계에서 재현성의 중요성 (0) | 2026.06.23 |
| [내일배움 본캠프] 가설검증(통계) (0) | 2026.06.19 |
| [내일배움 본캠프] 기술통계 (0) | 2026.06.18 |
| [내일배움 본캠프] 기초통계와 머신러닝 (0) | 2026.06.17 |