hyeon-ji 님의 블로그

[내일배움 본캠프]개인과제 시작.

hyeon-ji — Tue, 30 Jun 2026 20:00:19 +0900

☆ To Do List ☆

AI 진단퀴즈
개인과제
면접 준비
TIL 작성 및 제출

에이타니

진도에 맞는 퀴즈를 다 풀기도 했고, 앞전에 틀렸던 문제들을 복습하며 기억을 되살리고자, 오늘부터 프로젝트가 끝날때까지는 복습을 진행하고자 한다.

● 추세(Trend) : 데이터가 장기적으로 보이는 전반적인 방향성이다. 예시로는 계속 증가하거나 감소하는 판매량의 흐름이 있다.

● 계절성(Seasonality) : 일정한 주기로 반복되는 패턴이다. 예를 들면, 여름에 아이스크림 판매가 많아지고 겨울에 줄어드는 것처럼 시간대별로 규칙적으로 나타나는 변동을 계절성의 의미가 있다고 표현한다.

● 잔차(Residual) : 추세와 계절성을 모두 제거한 후 남은 불규칙한 변동이다. 예측하기 어려운 일회성 사건이나 노이즈를 잔차라고 한다.

■ 두 가지 분해 모델

● 가법 모델(Additive Moel)

시계열 = 추세 + 계절성 + 잔차

▶ 정의 : 계절 변동의 크기가 일정할 때 사용한다. 매년 같은 시기에 같은 양만큼 올라가고 내려가는 패턴이면 가법 모델이 적합하다.

▶ 파이썬 코드 : seasonnal_decompose(..., model = 'additive')

● 승법 모델(Multiplicative Model)

시계열 = 추세 x 계절성 x 잔차

▶ 정의 : 계절 변동의 크기가 추세에 비례할 때 사용한다. 추세가 올라갈수록 계절 변동도 함께 커지는 패턴이다.

▶ 파이썬 코드 : seasonnal_decompose(..., model = 'muliplicative')

개인과제

면접 날짜랑 과제 제출일이랑 딱 겹쳐버려서..
과제를 풀기는 했는데,, 많이 못 풀었다..
면접 준비 먼저하고, 최대한 풀어서 제출일에 제출할 수 있도록 노력해봐야겠다..!

[내일배움 본캠프]K-Means 군집화란? 비지도학습 핵심 개념 정리!

hyeon-ji — Mon, 29 Jun 2026 21:02:05 +0900

☆ To Do List ☆

AI진단퀴즈
머신러닝 심화 챕터 3, 4수강
개인과제 라이브세션 19:30~
면접준비
TIL작성 및 제출

에이타니

아 아침에 잠이 덜 깻나,, 선형그래프를 막대그래프라고 착각하고 문제를 풀었어요,,

그냥 A번 보고 완전 맞는말이네~ 하고 골랐는데.. 틀렸어요..

선형 그래프는 시간의 흐름에 따른 데이터의 변화와 추세를 파악하는 데 가장 적합한 시각화 방법으로 'B'가 정답입니다..~

️ 머신러닝

머신러닝 종류

머신러닝은 크게 지도학습(Supervised Learning)과 비지도학습(Unsupervised Learning)으로 나뉜다.

● 지도학습(Supervised Learning)

지도학습은 입력 데이터(X)와 정답(Y)이 함께 주어진 상태에서 학습하는 방법이다. 학습한 모델을 이용해 새로운 데이터의 결과를 예측한다.

대표적인 예시로는 '회귀'와 '분류'가 있다.

● 비지도학습(Unsupervised Learning)

비지도학습은 정답(Y) 없이 데이터의 특성이나 유사성을 기반으로 그룹을 찾는 방법이다.

대표적인 활용 예시로는 '고객 세분화', '구매 패턴 분석', '이상 데이터 탐지'가 있다.

K-Means Clustering

K-Means는 가장 대표적인 군집화(Clustering) 알고리즘이다.

비슷한 특성을 가진 데이터를 K개의 그룹으로 나누며, 각 군집의 중심(Centroid)을 반복적으로 이동시키면서 최적의 군집을 만든다.

▶ K-Means 수행 과정

군집 개수(K) 설정
초기 중심점 선택
가장 가까운 중심으로 데이터 할당
새로운 중심점 계산
중심이 변하지 않을 때까지 반복

▶ 장점

구현이 쉽고 직관적
군집화 속도가 빠름
다양한 분야에서 활용 가능

▶ 단점

K값을 직접 지정해야 함
이상치에 민감
거리 기반 알고리즘이라 차원이 많아질수록 성능이 저하될 수 있음

군집 평가 - 실루엣 계수(Silhouette Score)

비지도학습은 정답이 없기 때문에 실루엣 계수(Silhouette Score)를 이용해 군집화 품질을 평가한다.

▶ 해석

1에 가까울수록 군집이 잘 분리됨
0에 가까울수록 군집 간 경계가 모호함
-1에 가까울수록 잘못 군집화됨

좋은 군집화일수록 같은 군집은 가깝고 다른 군집은 멀리 떨어져 있다.

고객 세그멘테이션(Customer Segmentation)

고객의 구매 패턴이나 특성을 기반으로 고객을 여러 그룹으로 나누는 기법이다.

대표적으로 RFM 분석이 많이 사용된다.

Recency(R) : 최근 구매일
Frequency(F) : 구매 횟수
Monetary(M) : 총 구매 금액

이를 활용해 고객 맞춤형 마케팅 전략을 수립할 수 있다.

머신러닝과 딥러닝의 차이

딥러닝은 머신러닝의 한 분야로, 인공신경망(Artificial Neural Network)을 이용하여 복잡한 패턴을 학습하는 기술이다.

머신러닝	딥러닝
통계적 패턴 학습	인공신경망 기반 학습
비교적 적은 데이터로 학습 가능	많은 데이터가 필요
특징(Feature)을 직접 추출	특징을 자동으로 학습
해석이 쉬운 편	해석이 어려움

인공신경망(Artificial Neural Network)

인공신경망은 인간의 신경세포 구조를 모방한 모델이다.

기본 구조는 다음과 같다.

입력층(Input Layer) → 은닉층(Hidden Layer) → 출력층(Output Layer)

은닉층이 많아질수록 복잡한 패턴을 학습할 수 있으며, 이것이 딥러닝의 핵심이다.

경사하강법(Gradient Descent)

경사하강법은 손실 함수(Loss Function)를 최소화하도록 가중치를 반복적으로 업데이트하는 최적화 알고리즘이다.

쉽게 말해 오차가 가장 작은 방향으로 가중치를 계속 수정하면서 최적의 모델을 찾는 과정이다.

활성화 함수(Activation Function)

활성화 함수는 신경망에 비선형성(Non-linearity)을 추가하여 복잡한 문제를 해결할 수 있도록 만든 함수이다.

대표적인 활성화 함수

Sigmoid
ReLU
Softmax

Epoch · Batch · Iteration

딥러닝에서 자주 사용하는 용어이다.

Epoch : 전체 데이터를 한 번 학습하는 과정
Batch : 데이터를 일정 크기로 나눈 묶음
Iteration : 하나의 Batch를 학습하는 횟수

TensorFlow와 Keras

TensorFlow는 대표적인 딥러닝 프레임워크이며, Keras는 TensorFlow에서 제공하는 고수준 API이다.

▶ 주요 함수

Sequential() : 모델 생성
Dense() : 완전 연결층 추가
compile() : 손실 함수 및 최적화 방법 설정
fit() : 모델 학습
evaluate() : 모델 평가
predict() : 새로운 데이터 예측

딥러닝 활용 분야

▶ 자연어 처리(NLP)

텍스트 데이터를 이해하고 생성하는 기술이다.

ChatGPT
번역
감정 분석
문서 요약

▶ 이미지 처리(CNN)

이미지의 특징을 자동으로 학습하여 분류하거나 생성하는 기술이다.

얼굴 인식
의료 영상 분석
자율주행
이미지 생성

< 머신러닝 핵심 정리 >

지도학습 : 정답(Y)이 있는 데이터를 학습
비지도학습 : 정답 없이 데이터의 패턴을 학습
K-Means : 대표적인 군집화 알고리즘
실루엣 계수 : 군집화 성능 평가 지표
딥러닝 : 인공신경망 기반의 머신러닝
경사하강법 : 손실 함수를 최소화하는 최적화 방법
활성화 함수 : 신경망에 비선형성을 부여
TensorFlow/Keras : 대표적인 딥러닝 프레임워크
딥러닝 활용 분야 : 자연어 처리(NLP), 이미지 처리(CNN), 생성형 AI 등

[내일배움 본캠프]머신러닝 알고리즘 종류와 특징

hyeon-ji — Fri, 26 Jun 2026 20:39:49 +0900

☆ To Do List ☆

AI진단퀴즈
머신러닝 심화 챕터 2수강
자소서 작성
TIL 작성 및 제출

에이타니

F-statistic과 p-value

● F-statistic

F-statistic은 회귀모형 전체가 통계적으로 유의한지 평가하는 지표이다. 즉, 독립변수들이 종속변수를 설명하는 데 의미가 있는지를 확인하는 역할을 한다.

일반적으로 F-statistic 값이 클수록 모델의 설명력이 높을 가능성이 크며, 함께 제공되는 p-value를 통해 최종적으로 유의성을 판단한다.

● p-value

p-value는 귀무가설이 참이라는 가정하에 현재와 같거나 더 극단적인 결과가 나타날 확률을 의미한다.

일반적으로 다음과 같이 해석한다.

p-value < 0.05 : 통계적으로 유의하며, 귀무가설을 기각한다.
p-value ≥ 0.05 : 통계적으로 유의하지 않으며, 귀무가설을 기각하지 않는다.

즉, p-value가 작을수록 현재 분석 결과가 우연히 발생했을 가능성이 낮다고 판단한다.

️ 머신러닝

■ 의사결정나무(Decision Tree)

의사결정나무(Decision Tree)는 데이터를 조건에 따라 반복적으로 분할하여 결과를 예측하는 알고리즘이다. 사람의 의사결정 과정처럼 나무(Tree) 형태로 분류가 이루어지며, 분류(Classification)와 회귀(Regression) 모두 사용할 수 있다.

● 의사결정나무의 특징

데이터를 조건에 따라 반복적으로 분할하여 예측
데이터 스케일링이 필요하지 않음
변수 중요도를 확인할 수 있음

● 장점

구조가 직관적이고 해석이 쉬움
분류와 회귀 모두 적용 가능
이상치의 영향을 비교적 적게 받음

● 단점

과적합(Overfitting)이 발생하기 쉬움
데이터 변화에 따라 모델 구조가 크게 달라질 수 있음

▶ Python 함수

from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import DecisionTreeRegressor

■ 랜덤포레스트(Random Forest)

랜덤포레스트(Random Forest)는 여러 개의 의사결정나무를 학습시킨 뒤 결과를 종합하여 최종 예측을 수행하는 앙상블 알고리즘이다.

Bagging(Bootstrap Aggregating) 기법을 사용하여 서로 다른 데이터로 여러 개의 트리를 생성하고, 각 트리의 예측 결과를 종합하여 최종 결과를 결정한다.

● Bagging(Bootstrap Aggregating)

Bootstrapping : 데이터를 복원추출하여 여러 개의 학습 데이터를 생성
Aggregating : 여러 모델의 예측 결과를 종합하여 최종 결과를 결정

● 장점

과적합을 효과적으로 방지할 수 있음
높은 예측 성능을 보임
변수 중요도를 확인할 수 있음
데이터 스케일링이 필요하지 않음

● 단점

모델 구조를 해석하기 어려움
학습 시간과 메모리 사용량이 증가

▶ Python 함수

from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import RandomForestRegressor

■ K-최근접 이웃(K-Nearest Neighbor, KNN)

KNN은 새로운 데이터와 가장 가까운 K개의 데이터를 찾은 후, 가장 많이 속한 클래스로 예측하는 거리 기반 알고리즘이다.

데이터 간 거리를 계산하기 때문에 변수의 단위를 맞추기 위한 표준화(Standardization) 과정이 필요하다.

● 장점

원리가 단순하고 이해하기 쉬움
별도의 복잡한 학습 과정이 없음
분류와 회귀 모두 가능

● 단점

데이터가 많을수록 예측 속도가 느려짐
변수 스케일의 영향을 크게 받음
차원이 높아질수록 성능이 저하될 수 있음

▶ Python 함수

from sklearn.neighbors import KNeighborsClassifier
from sklearn.neighbors import KNeighborsRegressor

■ 하이퍼파라미터(Hyperparameter)

하이퍼파라미터(Hyperparameter)는 모델을 학습하기 전에 사용자가 직접 설정하는 값으로, 모델의 구조와 성능에 영향을 미친다.

대표적인 예시는 다음과 같다.

Decision Tree : max_depth
Random Forest : n_estimators
KNN : n_neighbors

적절한 하이퍼파라미터를 설정하면 모델의 예측 성능을 더욱 향상시킬 수 있다.

■ 부스팅(Boosting)

부스팅(Boosting)은 여러 개의 약한 학습기(Weak Learner)를 순차적으로 학습시키면서 이전 모델의 오차를 보완하는 앙상블 기법이다.

학습을 반복할수록 잘못 예측한 데이터에 더 큰 가중치를 부여하여 모델의 성능을 개선한다.

● Gradient Boosting Machine(GBM)

Gradient Boosting은 이전 모델의 오차를 경사하강법(Gradient Descent)을 이용하여 순차적으로 줄여나가는 부스팅 알고리즘이다.

▶ 특징

이전 모델의 오차를 반복적으로 보완
높은 예측 성능
학습 속도가 비교적 느림

▶ Python 함수

from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import GradientBoostingRegressor

● XGBoost

XGBoost는 Gradient Boosting을 개선한 알고리즘으로, 빠른 학습 속도와 높은 예측 성능을 제공한다.

▶ 특징

병렬 학습 지원
과적합 방지 기능 제공
다양한 데이터 분석 대회에서 많이 활용

▶ Python 함수

from xgboost import XGBClassifier
from xgboost import XGBRegressor

● LightGBM

LightGBM은 XGBoost를 개선한 알고리즘으로, 학습 속도가 빠르고 메모리 사용량이 적은 것이 특징이다.

▶ 특징

학습 속도가 매우 빠름
대용량 데이터에 적합
메모리 사용량이 적음
데이터가 적은 경우 과적합이 발생할 수 있음

▶ Python 함수

from lightgbm import LGBMClassifier
from lightgbm import LGBMRegressor

※ Mac에서 XGBoost 오류 해결

머신러닝 실습 중 XGBoost를 import하는 과정에서 아래와 같은 오류가 발생했다.

from xgboost import XGBClassifier

▶ 발생한 오류

XGBoostError:
Library not loaded: @rpath/libomp.dylib

→ 오류 원인

Mac에서 XGBoost는 OpenMP(libomp) 라이브러리를 사용한다.

하지만 해당 라이브러리가 설치되어 있지 않으면 XGBoost를 import하는 과정에서 위와 같은 오류가 발생한다.

→ 해결 방법

1. Homebrew 설치 여부 확인

터미널에서 아래 명령어를 입력한다.

brew --version

만약 아래와 같은 메시지가 출력된다면 Homebrew가 설치되어 있지 않은 상태이다.

command not found: brew

2. Homebrew 설치

아래 명령어를 입력하여 Homebrew를 설치한다.

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

3. Homebrew PATH 등록

설치가 완료되면 아래 명령어를 순서대로 한 줄씩 입력한다.

echo >> ~/.zprofile

echo 'eval "$(/opt/homebrew/bin/brew shellenv zsh)"' >> ~/.zprofile

eval "$(/opt/homebrew/bin/brew shellenv zsh)"

4. Homebrew 설치 확인

brew --version

Homebrew 버전이 출력되면 정상적으로 설치된거다.

5. libomp 설치

brew install libomp

6. libomp 설치 확인

brew list | grep libomp

libomp가 출력되면 정상적으로 설치된거다.

7. 커널 재시작 후 다시 실행

Jupyter Notebook 또는 VS Code의 커널을 재시작한 뒤 다시 실행한다.

from xgboost import XGBClassifier

정상적으로 import되면 오류 해결 완!

[내일배움 본캠프] 과적합이란?

hyeon-ji — Thu, 25 Jun 2026 20:40:49 +0900

☆ To Do List ☆

AI 진단퀴즈
머신러닝 심화 챕터 1 완강
자소서 작성
TIL 작성 및 제출

에이타니

● F-statistic

F-statistic은 회귀모형 전체가 통계적으로 유의한지를 평가하는 지표이고, 독립변수들이 종속변수를 설명하는 데 의미가 있는지 확인하는 방법이다.

일반적으로 F-statistic이 클수록 모델의 설명력이 높을 가능성이 크며, 함께 제공되는 p-value를 통해 최종적으로 유의성을 판단한다.

● p-value

p-value는 귀무가설이 참이라는 가정하에 현재와 같은 결과가 우연히 관측될 확률이다.

일반적으로 p-value < 0.05이면 통계적으로 유의하다고 판단하여 귀무가설을 기각하고, p-value ≥ 0.05이면 귀무가설을 기각하지 않는다.

️ 머신러닝

1. 과적합(Overfitting)이란?

과적합(Overfitting)은 학습 데이터에만 지나치게 맞춰져 새로운 데이터에서는 성능이 떨어지는 현상이다.

머신러닝에서도 특정 데이터만 암기하면 새로운 데이터를 제대로 예측하지 못한다.

● 과적합과 과소적합

과소적합(Underfitting)	모델이 너무 단순하여 학습 데이터도 제대로 학습하지 못함
적절한 모델	학습 데이터와 새로운 데이터 모두 좋은 성능
과적합(Overfitting)	학습 데이터는 매우 잘 맞지만 새로운 데이터에서는 성능이 떨어짐

2. 과적합이 발생하는 원인

모델이 너무 복잡한 경우
학습 데이터의 양이 부족한 경우
학습을 지나치게 많이 반복한 경우(딥러닝)
데이터 불균형이 심한 경우

● Train/Test 데이터 분리

과적합을 방지하기 위해 데이터를 학습용(train)과 평가용(test)으로 분리해야 한다.

Train Data : 모델 학습(fit)
Test Data : 모델 성능 평가

▶ 함수

from sklearn.model_selection import train_test_split

▶ 함수 주요 옵션

test_size : 테스트 데이터 비율
train_size : 학습 데이터 비율
shuffle : 데이터 섞기
random_state : 동일한 결과를 위한 난수 고정

● 교차 검증(Cross Validation)

Train/Test를 한 번만 나누면 우연히 좋은 결과가 나올 수 있다. 이를 보완하기 위해서는 교차 검증(Cross Validation)이 필요하다.

데이터를 여러 개(Fold)로 나누고,

학습 → 검증 → 학습 → 검증

을 반복하여 평균 성능을 계산하는 방법이다.

● K-Fold Cross Validation

가장 많이 사용하는 교차 검증 방법.

ex) K = 5라면

1회 : Fold1 검증
2회 : Fold2 검증
3회 : Fold3 검증
4회 : Fold4 검증
5회 : Fold5 검증

총 5번 학습하여 평균 성능을 계산한다.

○ 장점

데이터가 적을 때 효과적
모델 성능을 더욱 안정적으로 평가 가능

▶ 함수

KFold()

불균형 데이터에서는

StratifiedKFold()

를 사용하는 것이 좋다.

● 하이퍼파라미터 튜닝(GridSearchCV)

모델에는 사람이 설정하는 값인 하이퍼파라미터(Hyperparameter)가 존재한다.

그 중 GridSearchCV는 여러 하이퍼파라미터 값을 자동으로 적용해 모델을 반복 학습하고 평가한 뒤, 가장 좋은 성능을 보이는 하이퍼파라미터 조합을 찾아주는 기능이다.

▶ GridSearchCV의 장점

최적의 하이퍼파라미터 자동 탐색
교차 검증과 함께 수행 가능
모델 성능 향상

[내일배움 본캠프]EDA와 데이터 전처리

hyeon-ji — Wed, 24 Jun 2026 20:38:17 +0900

☆ To Do List ☆

AI 진단퀴즈
머신러닝 심화 1-7 수강
자소서 작성하기
라이브세션(19:30)
아티클 스터디
TIL 작성 및 제출

에이타니

● Feature Engineering란?

원본 데이터로부터 새로운 특성을 생성하거나 기존 특성을 변환하는 과정이다.
모델의 예측 성능을 향상시키기 위한 핵심적인 데이터 전처리 기법이다.
적절한 Feature Engineering을 통해 단순한 모델로도 높은 성능을 달성할 수 있다.
도메인 지식과 데이터에 대한 이해가 매우 중요한 과정이다.

️ 머신러닝

■ 데이터 분석에서 전처리가 중요한 이유

데이터 분석은 단순히 모델을 만드는 과정이 아니라, 실제 업무에서는 데이터를 수집하고, 이해하고, 정제하는 과정이 대부분의 시간을 차지한다. 특히 데이터 전처리는 전체 분석 과정의 약 80~90%를 차지할 정도로 중요한 단계이다!

1. 데이터 분석 프로세스

Data Source → DB, 로그, API, 외부 데이터 등 원천 데이터
Data Lake → Raw Data 저장
Data Warehouse → 정제된 데이터를 저장
Data Mart → 특정 부서 목적에 맞게 가공된 데이터
BI / Analytics → 분석 및 의사결정 활용

● 데이터 수집 방법

SQL을 이용한 사내 데이터 추출
CSV / Excel 파일 활용
Open API 활용
웹 크롤링(Web Crawling)

2. 탐색적 데이터 분석(EDA)

→ EDA(Exploratory Data Analysis)는 데이터를 본격적으로 분석하기 전에 데이터의 특징과 구조를 파악하는 과정이다.

EDA를 통해

데이터 분포 확인
이상치 확인
결측치 확인
변수 간 관계 파악
모델링 방향 결정

등을 수행할 수 있다.

● 대표적인 EDA 시각화

그래프	목적
Count Plot	범주별 빈도 확인
Bar Plot	그룹별 평균 비교
Box Plot	분포 및 이상치 확인
Histogram	데이터 분포 확인
Scatter Plot	변수 간 관계 확인
Pair Plot	전체 변수 관계 확인

3. 데이터 전처리

→ 데이터 전처리는 분석 가능한 형태로 데이터를 정리하는 과정이다.

대표적으로

이상치 처리
결측치 처리
인코딩
스케일링

을 수행한다.

4. 이상치(Outlier) 처리

→ 이상치는 일반적인 데이터 범위에서 크게 벗어난 값을 의미한다.

● 대표적인 탐지 방법

① ESD (3σ Rule) : 평균에서 표준편차의 3배 이상 벗어난 값

평균 ± 3 × 표준편차

② IQR 방법 : 사분위수를 이용한 이상치 탐지

IQR = Q3 - Q1

상한 = Q3 + 1.5 × IQR
하한 = Q1 - 1.5 × IQR

※ 주의사항

이상치는 무조건 제거하는 것이 옳은 방법이 아니다.

실제 오류 데이터일 수도 있음
중요한 이벤트일 수도 있음

따라서 도메인 지식을 고려하여 판단하는 것이 중요하다.

5. 결측치(Missing Value) 처리

→ 결측치는 값이 존재하지 않는 데이터를 의미한다.

① 수치형 데이터

평균값 대치
중앙값 대치

② 범주형 데이터

최빈값 대치

③ 처리 방법

삭제(Drop)
단순 대치(Imputation)
머신러닝 기반 대치(KNN, 회귀 대치 등)

※ 주의사항

평균값 대치는 쉽지만 이상치가 많을 경우 왜곡될 수 있으므로 중앙값을 사용하는 경우도 많다.

6. 범주형 데이터 전처리 (인코딩)

① Label Encoding : 범주를 숫자로 변환

1등급 → 0
2등급 → 1
3등급 → 2

▶ 장점

간단함
차원 증가 없음

▶ 단점

순서가 없는 데이터에도 순서가 있다고 학습할 수 있음

② One-Hot Encoding : 각 범주를 독립적인 변수로 변환

빨강 → [1,0,0]
파랑 → [0,1,0]
초록 → [0,0,1]

▶ 장점

순서 왜곡 방지
명목형 데이터에 적합

▶ 단점

범주 수가 많으면 차원 증가

7. 수치형 데이터 전처리 (스케일링)

→ 각 변수의 단위 차이를 보정하는 과정이다.

① 표준화 (Standardization) : 평균 0, 표준편차 1로 변환

▶ 특징

가장 많이 사용
이상치가 있어도 비교적 안정적

② 정규화 (Normalization) : 0~1 범위로 변환

▶ 특징

최소값 0
최대값 1

▶ 단점

이상치에 민감

③ 로버스트 스케일링 (Robust Scaling) : 중앙값과 IQR을 이용

▶ 특징

이상치 영향 최소화
데이터가 치우친 경우 유용

[내일배움 본캠프] 통계에서 재현성의 중요성

hyeon-ji — Tue, 23 Jun 2026 20:57:19 +0900

☆ To Do List ☆

AI 진단퀴즈
기초통계 완강하기
라이브세션(19:30)
자소서 작성하기
TIL 작성 및 제출

에이타니

● MSE (Mean Squared Error)

오차를 제곱하여 평균을 내는 지표
오차를 제곱하기 때문에 오차가 1보다 큰 경우 그 값이 기하급수적으로 증가하게 되어, 큰 오차를 발생시키는 예측에 더 큰 페널티를 줄 수 있음

● MAE (Mean Absolute Error)

오차의 절대값(Absolute Value)을 평균낸 지표
오차를 제곱하지 않고 절대값으로 계산하기 때문에 모든 오차를 동일한 비중으로 반영함
이상치(Outlier)의 영향이 MSE보다 적으며, 실제 예측값이 평균적으로 얼마나 벗어났는지를 직관적으로 해석할 수 있음

● MAPE (Mean Absolute Percentage Error)

실제값 대비 오차의 비율(%)을 계산한 후 평균낸 지표
예측 오차를 백분율로 표현하기 때문에 데이터의 단위와 관계없이 모델 성능을 해석 가능
예를 들어 MAPE가 10%라면 예측값이 실제값에서 평균적으로 10% 정도 벗어났음을 의미함. 다만 실제값이 0에 가깝거나 0인 경우 값이 매우 커지거나 계산이 불가능하다는 단점 존재

● R²(결정계수)

모델이 데이터의 분산을 얼마나 설명하는지를 나타낸 상대적 지표
값 자체에 단위가 포함되지 않는 무차원(Dimensionless) 지표이므로 타겟 변수의 단위(Scale)에 무관하며, 특성이 다른 여러 데이터셋 간의 성능을 직접 비교할 때 매우 유용함

기초통계

항상 통계로 데이터 분석을 진행할 때에는 언제 어디서든, 어떤 사람이 진행하든 동일한 결과가 나와야 한다.

재현성(Reproducibility)이란?

재현성이란 동일한 연구나 실험을 반복했을 때 비슷한 결과가 다시 나타나는지를 의미한다. 연구 결과의 신뢰성을 판단하는 중요한 기준이고, 최근 학계에서는 동일한 논문을 다시 실험했을 때 같은 결과가 나오지 않는 재현성 위기(Reproducibility Crisis) 가 큰 문제로 대두되고 있다.

재현성 위기가 발생하는 이유

1. 실험 조건을 완전히 동일하게 재현하기 어렵다

실제 연구에서는 환경, 대상, 측정 방법 등의 차이로 인해 동일한 실험을 완벽하게 반복하기 어렵다. 또한 통계 검정 자체도 오류 가능성을 포함하고 있기 때문에 항상 같은 결과가 나오는 것은 아니다.

2. 가설검정의 잘못된 사용

통계 분석 과정에서 연구자가 의도적으로 혹은 무의식적으로 유리한 결과만 선택하면 재현성이 크게 떨어진다.

대표적인 사례로는 p-해킹(p-hacking) 이 있다.

p-해킹(P-Hacking)이란?

p-해킹은 유의수준(일반적으로 0.05) 이하의 결과가 나올 때까지 반복적으로 데이터를 분석하거나 조건을 변경하는 행위를 의미한다.

여러 변수를 반복적으로 시도하는 경우
원하는 결과가 나올 때까지 데이터를 계속 수집하는 경우
여러 분석 결과 중 유의한 결과만 보고하는 경우

문제점

p-해킹은 실제로는 의미 없는 결과를 의미 있는 결과처럼 보이게 만들 수 있으며, 연구 결과의 신뢰성을 크게 저하시킨다.

선택적 보고(Selective Reporting)

선택적 보고란 수행한 모든 분석 결과를 공개하지 않고, 통계적으로 유의한 결과만 발표하는 행위를 의미한다.

예를 들어 20개의 가설을 검정했는데 그중 1개만 유의하게 나왔다면, 해당 결과만 보고할 경우 실제 효과보다 과장된 결론을 내릴 수 있다.

따라서 연구에서는 유의한 결과뿐 아니라 유의하지 않은 결과도 함께 보고하는 것이 중요하다.

데이터 수집 중단 시점의 중요성

데이터 수집을 시작하기 전에 언제 데이터를 수집할지 미리 결정해야 한다.

만약 연구 도중 결과를 확인하면서 데이터를 추가 수집한다면 특정 시점에서 우연히 유의한 결과가 나올 수 있다.

원래 50명을 조사하기로 계획
결과가 유의하지 않음
100명까지 추가 조사
우연히 p-value < 0.05 달성

위와 같은 경우, 결과가 왜곡될 가능성이 존재한다.

데이터 탐색과 검증의 분리

좋은 분석은 탐색(Exploration) 과 검증(Validation) 을 구분한다.

탐색 단계

데이터 패턴 확인
변수 관계 탐색
새로운 가설 생성

검증 단계

독립된 데이터로 가설 검증
실제로 동일한 결과가 재현되는지 확인

머신러닝의 Train/Test 데이터 분리 역시 같은 개념으로 볼 수 있다.

재현성을 높이기 위한 방법

✔ 가설을 사전에 명확히 설정하기

✔ 모든 분석 결과를 투명하게 공개하기

✔ 데이터 수집 계획을 미리 정하기

✔ p-value만 보지 않고 효과크기(Effect Size)도 함께 확인하기

✔ 탐색용 데이터와 검증용 데이터를 분리하기

✔ 다중 검정을 수행할 경우 보정(Bonferroni Correction 등) 적용하기

[내일배움 본캠프] 통계를 이용한 데이터 분석

hyeon-ji — Mon, 22 Jun 2026 20:43:19 +0900

☆ To Do List ☆

AI 진단퀴즈
라이브세션 수강(11:00, 19:30)
기초 통계 챕터 5수강
머신러닝 기초 완강하기
자소서 작성
TIL 작성 및 제출

에이타니

● RMSE(Root Mean Squared Error)

MSE의 제곱근(square root)을 취한 값을 말한다.

MSE와 달리 원래 데이터와 동일한 단위를 가지므로 해석이 더 직관적이다.

파이썬 코드 : np.sqrt(mse)

기초통계

1. 데이터 분석의 전체 흐름

2. 모수검정과 비모수검정

구분	모수검정	비모수검정
전제 조건	정규성 만족	정규성 불필요
비교 기준	평균	순위(Rank), 중앙값
대표 검정	t-test, ANOVA	Mann-Whitney, Wilcoxon, Kruskal-Wallis
사용 상황	연속형 데이터	순위형, 비정규 데이터

☞ 비모수 검정

검정명	비교 대상	사용 예시
Mann-Whitney U Test	독립 2집단	남녀 만족도 비교
Wilcoxon Test	대응 2집단	교육 전후 점수 비교
Kruskal-Wallis Test	독립 3집단 이상	공정 A/B/C 생산량 비교
Chi-square Test	범주형 독립성	성별 vs 과목 선호

3. 정규성 검정

→ 모수검정을 수행하기 위해서는 데이터가 '정규분포'를 따르는지 확인해야 한다.

● Shapiro-Wilk Test

가장 널리 사용되는 정규정 검정 방법
표본 수가 적어도 사용 가능하다
귀무가설 : 데이터는 정규분포를 따른다

☞ 해석

p > 0.05 → 정규성을 만족함
p < 0.05 → 정규성을 만족하지 않음 → 비모수 검정 사용

● Q-Q Plot(Quantile-Quantile Plot)

데이터가 정규분포를 따르는지를 시각적으로 확인하는 방법
데이터 점들이 직선에 가깝게 위치하면 정규성 가정이 만족
선에서 멀리 떨어진 점이 많다면 정규성 위배 가능성이 있다

4. t-test

→ 세 개 이상의 집단(그룹) 간의 평균에 통계적으로 유의미한 차이가 있는지를 검증하는 데 사용되는 통계 기법

비고	단일표본 t-test	대응표본 t-test	독립표본 t-test
사용 상황	기준값과 비교	같은 집단 전후 비교	서로 다른 두 집단 비교
예시	현재 공정 온도가 기준 온도와 다른가?	설비 교체 전후 불량률 차이가 있는가?	A라인과 B라인 제품 품질 차이가 있는가?

5. ANOVA(분산분석)

→ 분산분석(Analysis of Variance, ANOVA)은 세 개 이상의 집단(그룹) 간의 평균에 통계적으로 유의미한 차이가 있는지를 검증하는 데 사용되는 통계 기법

집단 간 분산 (Between-group variance): 각 그룹의 평균이 전체 데이터의 평균과 얼마나 다른지 나타낸다. (그룹 간 차이가 클수록 이 분산이 커짐), 그룹 평균들 사이의 "차이"를 설명한다.
집단 내 분산 (Within-group variance): 각 그룹 내부의 데이터가 얼마나 흩어져 있는지 나타낸다. (그룹 내 데이터가 비슷할수록 이 분산이 작아짐), 같은 그룹 안에서의 "오차"나 "잡음"을 설명한다.

● 기본 가정

→ 정규성, 독립성, 등분산성을 만족해야지 ANOVA분석 사용이 가능하다.

● F-값 (F-statistic)

F-값이 크다 → 집단 간 차이가 집단 내 변동보다 크므로, 그룹 간 평균 차이가 통계적으로 유의하다
F-값이 작다 → 그룹 간 평균 차이가 크지 않으며, 집단 내의 오차에 비해 뚜렷한 차이가 없으므로, 유의미한 차이가 없다

6. 상관분석

→ 두 변수 간 관계를 확인하는 방법

● 공분산

→ 두 변수가 함께 움직이는 정도, 단위의 영향을 받는다.

● 상관계수

→ 공분산을 표준화한 값. -1 ~ 1 사이의 값을 가진다.

○ 상관계수 종류

▷ 모수 상관계수

☞ Pearson

선형적인 관계가 예상될 때 사용한다
비선형 관계에서는 사용할 수 없다
연속형과 정규성을 만족할 때 사용 가능하다

▷ 비모수 상관계수

데이터가 정규분포를 따르지 않거나 변수들이 순서형 데이터일 때 사용하는 상관계수
데이터의 분포에 대한 가정 없이 두 변수 간의 상관관계를 측정할 때 사용한다

☞ Spearman

두 변수의 순위 간의 일관성을 측정
순위형 또는 비정규 데이터인 경우 사용 가능하다
켄달의 타우 상관계수 보다 데이터 내 편차와 에러에 민감

☞ Kendall Tau

순위 간의 일치 쌍 및 불일치 쌍의 비율을 바탕으로 계산
소규모 순위 데이터인 경우 사용 가능하다
예를들어 사람의 키와 몸무게에 대해 상관계수를 알고자 할 때 키가 크고 몸무게도 더 나가면 일치 쌍에 해당, 키가 크지만 몸무게가 더 적으면 불일치 쌍에 해당 이들의 개수 비율로 상관계수를 결정

○ 모수 & 비모수 공통점과 차이점

☞ 공통점 : 상관계수 값은 -1 ~ 1사이의 값을 가진다.

☞ 차이점 : 데이터가 연속성에 차이가 있다.

▷ 상호정보 상관계수

→ 숫자로 이루어지지 않은 범주형일 때나 숫자로 이루어져 있는 데이터나 모든 상황에서 상호 정보량 계산 가능하다

※ 상관관계는 인과관계와 같지 않다. '온도가 증가할수록 불량률 증가'라는 상관관계 결과가 나왔다고 해서, '온도가 불량을 발생시킨다'로 단정할 수는 없다.

7. 회귀분석

→ 어떤 변수가 결과에 얼마나 영향을 주는지 분석하는 방법

● 회귀모형 평가 지표

☞ R² : 범위 0~1사이에서 표현되며, 회귀모형이 종속변수를 얼마나 설명하는지를 나타낸다. 값이 클수록 좋은 모델

☞ Adjusted R² : 독립변수 개수를 고려한 평가지표이며, 변수가 많아질수록 값이 무조건 증가하므로 보정하기 위해 사용한다

☞ F-test : 회귀모형 전체의 유의성을 확인하기 위해 사용한다

☞ t-test : 각 독립변수의 유의성을 확인하기 위해 사용한다

8. 다중공선성

→ 독립변수들끼리 높은 상관관계를 가지게 될 시 발생하는 문제점이다.

[내일배움 본캠프] 가설검증(통계)

hyeon-ji — Fri, 19 Jun 2026 21:10:54 +0900

☆ To Do List ☆

AI에이타니
통계학 기초 챕터 3, 4 수강
머신러닝 기초 1-13까지 수강하기
라이브세션(11:00, 19:30)
공고 찾아보기
TIL 작성 및 제출

에이타니

Q. Python에서 시계열 분해(Time Series Decomposition)를 수행하는 코드, 가법 모델을 사용하여 시계열을 Trend + Seasonality + Residual로 분해하고자 할 때, 빈칸에 들어갈 값은?

from statsmodels.tsa.seasonal import seasonal_decompose
import pandas as pd

# 시계열 데이터 생성
data = pd.Series([100, 120, 130, 110, 105, 125, 135, 115], 
                 index=pd.date_range('2023-01', periods=8, freq='M'))

# 시계열 분해
result = seasonal_decompose(data, model='________', period=4)

→ 시계열 분해 모델에는 가법 모델(additive)과 승법 모델(multiplicative) 두 가지가 있습니다. 가법 모델은 시계열을 Trend + Seasonality + Residual로 분해하며, 계절 변동의 크기가 일정할 때 사용한다. 승법 모델은 Trend × Seasonality × Residual로 분해하며, 계절 변동의 크기가 Trend에 비례할 때 사용한다. 따라서 가법 모델을 사용하려면 'additive'를 입력해야 한다.

기초통계

● 6Sigma란?

→ 전사적(품질, 생산 뿐만 아니라 구매, 물류, 마케팅 등) 경영혁신활동

→ 정규분포를 따른다는 가정하에 이루어짐

σ수준	불량률(ppm)	품질비용(매출액 대비)	비고
6σ	3.4	1%	세계최고 수준
5σ	233	5 ~ 10%	우량 수준
4σ	6,210	10 ~ 15%	우량 수준
3σ	66,807	20 ~ 30%	일반 수준
2σ	308,537	30 ~ 40%	일반 수준

○ 6Sigma 추진방법

D(Define) : 과제 선정, 과제 정의, 과제 승인
M(Measure) : 프로젝트 정의, 현수준 파악, 목표 설정, 잠재 X 도출
A(Analyze) : 분석 계획, 분석 실시, 핵심 X 도출
I(Improve) : 사건계획, 아이디어 도출, 개선 최적화, 개선안 실행
C(Control) : 관리계획 수립, 관리 실행, 승인/확산

● 공정능력이란?

공정 혹은 프로세스가 얼마나 균일한 품질의 제품 혹은 서비스를 산출할 수 있는지의 능력
공정이 정상적인 관리 상태에 있을 때 그 공정에서 생산되는 제품의 품질 변동이 어느 정도인가를 나타내는 양으로 평가
σ수준 = % = ppm = Cp

○ 공정능력지수(Cp)

→ 규격의 폭과 공정의 산포를 비교하는 척도

☞ 해석

Cp가 1.0 미만이면 공정이 지나치게 흔들리며 사양에 맞지 않음
Cp는 높지만 Cpk가 낮다면? → 공정은 정밀하지만 평균이 한쪽으로 치우침
Cp ≈ Cpk → 공정 중심이 사양 중앙에 잘 위치함
Cp 또는 Cpk < 1.0: 불량률 높음
Cp = 1.33 이상: 적정 수준
Cp = 2.0 이상: 식스시그마 수준

○ 공정 성능 지수(Cpk)

→ 규격중심과 공정평균이 일치하지 않을 경우 사용

☞ 해석

Cpk > 1.33 → 안정적이고 중심 정렬된 공정
Cp > 1.33, Cpk < 1 → 정밀하나 중심이 어긋난 공정

● 측정시스템 분석(MSA;Measurement System Analysis)

→ 데이터의 신뢰성을 확보하기 위해 측정시스템을 평가, 검증하는 과정이 필요하다.

→ 개선 대상 프로세스의 현재 능력을 파악하기 위한 데이터 수집에 앞서, 먼저 데이터가 믿을 수 있는지 확인해야 한다.

정확성 : 실제 평균과 측정값의 평균간의 차이를 의미하며, 그 차(bias)가 작을수록 좋다.
안정성 : 시간의 변화에 따은 계측결과의 변이
선형성 : 측정 범위 전체에 있어 측정 시스템의 일관성
반복성 : 한 사람의 측정자가 동일한 측정기로 동일한 대상을 동일한 측정 과정을 사용하여 반복해서 측정할 때 발생하는 산포
재현성 : 두 명 이상의 측정자가 동일한 측정기로 동일 대상을 반복해서 측정할 때 발생하는 평균의 차이

○ Gage R&R : 실세 프로세스의 변동을 파악하기 위해 측정 시스템 변동을 먼저 파악하여 공정 중 발생되는 다른 변동과 분리 하고자 하는, 측정시스템 분석 / 재현성과 반복성을 확인하기 위해 사용되는 분석이다.

● 정규화와 표준화의 차이

정규화 : 값을 특정 범위로 변환(0 ~ 1)

표준화 : 평균과 표준편차를 이용하여 변환(평균 0, 표준편차 1)

● 가설검정 절차

귀무가설(H0) : 일반적으로 과거 이론이나 경험적으로 '참'이라고 믿어지는 가설
대립가설(H1) : 귀무가설과 다른(혹은 상반된) 입장

검정통계량 : 귀무가설을 검정하기(채택 or 기각) 위해 사용되는 통계량
유의수준 : 귀무가설이 참일 때 귀무가설을 기각할 확률(α)
임곗값 or 기각치 : 귀무가설을 기각할지 기각하지 않을지 기준이 되는 값
기각역 : 귀무가설이 기각되는 영역(넓이 α)

● 가설검정 종류

z-검정 : 모집단의 표준편차를 알고 있고, 표본 수가 충분히 많을 때(n ≥ 30) 사용하는 평균 차이 검정 방법

# 단일표본 z-test
import numpy as np
from scipy.stats import norm

# 샘플 데이터
sample = [50.1, 50.3, 50.2, 50.4, 50.0, 50.5, 50.3, 50.2, 50.1, 50.4,
          50.3, 50.2, 50.5, 50.6, 50.2, 50.1, 50.4, 50.3, 50.2, 50.3,
          50.2, 50.1, 50.0, 50.4, 50.2, 50.1, 50.3, 50.5, 50.1, 50.3,
          50.2, 50.3, 50.4, 50.2, 50.1, 50.0, 50.2, 50.3, 50.4, 50.2]

# 기본 통계
sample_mean = np.mean(sample)
population_mean = 50        # 기준값
population_std = 0.5        # 모집단 표준편차 (알고 있어야 z-test 가능)
n = len(sample)

# Z 검정 통계량 계산
z_stat = (sample_mean - population_mean) / (population_std / np.sqrt(n))
p_value = 2 * (1 - norm.cdf(abs(z_stat)))  # 양측 검정

print(f"Z-statistic: {z_stat:.3f}")
print(f"Two-tailed p-value: {p_value:.4f}")

# p-value < 0.05: 차이가 통계적으로 유의미 → 평균이 기준값과 다르다.
# p-value ≥ 0.05: 차이가 우연일 수 있음 → 평균 차이가 유의하지 않다.

t-검정 : 두 집단 간의 평균 차이가 통계적으로 유의미한지 확인하는 검정 방법

# 학생 점수 데이터
scores_method1 = np.random.normal(70, 10, 30)
scores_method2 = np.random.normal(75, 10, 30)

# 독립표본 t검정
t_stat, p_val = stats.ttest_ind(scores_method1, scores_method2)
print(f"T-Statistic: {t_stat}, P-value: {p_val}")

카이제곱 검정 : 범주형 데이터의 표본 분포가 모집단 분포와 일치하는지 검정(적합도 검정)하거나 두 범주형 변수 간의 독립성을 검정(독립성 검정)

# 적합도 검정
observed = [20, 30, 25, 25]
expected = [25, 25, 25, 25]
chi2_stat, p_value = stats.chisquare(observed, f_exp=expected)
print(f"적합도 검정 카이제곱 통계량: {chi2_stat}, p-값: {p_value}")

# 독립성 검정
observed = np.array([[10, 10, 20], [20, 20, 40]])
chi2_stat, p_value, dof, expected = stats.chi2_contingency(observed)
print(f"독립성 검정 카이제곱 통계량: {chi2_stat}, p-값: {p_value}")

# 성별과 흡연 여부 독립성 검정
observed = np.array([[30, 10], [20, 40]])
chi2_stat, p_value, dof, expected = stats.chi2_contingency(observed)
print(f"독립성 검정 카이제곱 통계량: {chi2_stat}, p-값: {p_value}")

해당 가설검정의 오류는 머신러닝의 성능평가 Confusion Matrix부분과 동일하다고 볼 수 있다.

제 1종 오류(α) = FN : 실제로는 귀무가설이 옳은데 검정 결과 귀무가설을 기각하는 오류
제 2종 오류(β) = FP : 실제로는 귀무가설이 틀렸는데 검정 결과 귀무가설이 옳은 것으로 판단하는 오류

→ 1-α, 1-β를 크게 할수록 옳은 결정을 할 가능성이 높아진다. But α와 β의 크기는 서로 반대 방향으로 변하고 있으므로, 1-α와 1-β를 동시에 크게 하기에는 현실적으로 불가능하다.

→ 가설의 채택여부가 실제로 미치는 영향을 감안해서 더 중요하다고 판단되는 가설채택에 따른 오류의 확률을 미리 지정된 값 이하로 하여 주는 검정방법을 찾는게 현실적이다.

→ 제 2종 오류의 가능성을 최소화하는 것이 가장 현실적이면서 좋은 통계적 검정법이다.

→ 연구자의 입장에서 보면 귀무가설이 거부되어야할 때 1-β가 커지도록 하는 것이 바람직하며, 1-β를 검정력 이라고 부른다.

▶ 가설검증 파이썬 코드

# 기존 약물(A)와 새로운 약물(B) 효과 데이터 생성
A = np.random.normal(50, 10, 100)
B = np.random.normal(55, 10, 100)

# 평균 효과 계산
mean_A = np.mean(A)
mean_B = np.mean(B)

# t-검정 수행
t_stat, p_value = stats.ttest_ind(A, B)

print(f"A 평균 효과: {mean_A}")
print(f"B 평균 효과: {mean_B}")
print(f"t-검정 통계량: {t_stat}")
print(f"p-값: {p_value}")

# t-검정의 p-값 확인 (위 예시에서 계산된 p-값 사용)
print(f"p-값: {p_value}")
if p_value < 0.05:
    print("귀무가설을 기각합니다. 통계적으로 유의미한 차이가 있습니다.")
else:
    print("귀무가설을 기각하지 않습니다. 통계적으로 유의미한 차이가 없습니다.")

[내일배움 본캠프] 기술통계

hyeon-ji — Thu, 18 Jun 2026 20:59:26 +0900

☆ To Do List ☆

AI진단퀴즈
통계학 기초 챕터 2 수강
머신러닝 기초 1-10까지 수강
아티클 스터디
라이브 세션(11:00, 19:30)
TIL 작성 및 제출

에이타니

● 시계열 데이터 분해와 패턴 해석

원본 데이터 : 전반적으로 상승하는 패턴을 보이며, 매년 여름에 높고 겨울에 낮은 규칙적 변동이 관찰됨
추세 성분 : 완만하게 상승하는 곡선 형태
계절성 성분 : 12개월 주기로 동일한 패턴이 반복됨
잔차 성분 : 0을 중심으로 불규칙하게 분포하나, 특정 시점에 큰 음수 값이 관찰됨

○ 위 데이터 해석

원본 데이터에서 상승하는 패턴을 보임을 알 수 있고, 추세 성분이 완만하게 상승하는 곡선 형태임을 봤을 때 해당 데이터는 장기적으로 증가 추세를 보인다라고 볼 수 있다.
계절성 성분이 12개월 주기로 동일한 패턴이 반복된다는 것을 보고 계절성 주기가 1년이라는 것을 알 수 있다.
원본 데이터에서 매년 여름에 높고 겨울에 낮은 규칙적이 반복되는 값은 계절성 성분으로 설명할 수 있다.
잔차가 특정 시점에 큰 음수 값으로 관찰되는 것은 이상치가 특정 시점이 크게 나타난다는 것으로 설명할 수 있다.

기초통계

● 기술통계

표본이 대표성을 가지는 것이 중요함

긴꼬리분포는 아무리 데이터가 많아도 정규분포가 될 수 없음 --> 파레토분포랑 관련있음

확률분포	이산확률분포	연속확률분포
확률변수	이산확률변수	연속확률변수
확률함수	확률질량함수	확률밀도함수
확률분포	베르누이분포, 이항분포, 포아송분포, 기하분포, 초기하분포	정규분포, 지수분포, t분포, F분포

● 이산확률분포

베르누이분포 : 1번의 시행에서 성공확률이 p일 ㅈ때, 성공횟수 (실패 확률 = 1 - p)
이항분포 : n번의 독립적 시행에서 각 시행의 성공확률이 p일 때, 성공횟수
n이 충분히 크고, p가 0.5에 가까울 경우 정규분포에 근사할 수 있음
기하분포 : 각 독립적 시행의 성공확률이 p일 때, 최초 성공까지의 필요한 시행 횟수
포아송분포 : 단위시간(구간)동안 평균적으로 λ번 사건이 발생할 때, 실제로 단위시간동안 사건이 일어난 횟수

● 연속확률분포

균일분포 : a와 b사이에서 숫자(실수)가 동일한 확률로 분포됨
지수분포 : 사건이 발생할 때까지 걸리는 시간
정규분포 : 평균을 중심으로 좌우 대칭의 종 모양으로 분포됨
카이제곱분포 : 표본분산이나 범주형 데이터의 적합도·독립성을 검정할 때 사용하는 분포
t분포 : 모집단의 분산을 모르고 표본 수가 적을 때 모집단 평균을 추정하거나 두 집단 평균 차이를 검정할 때 사용하는 분포
F분포 : 두 집단의 분산을 비교하거나 분산분석(ANOVA)을 수행할 때 사용하는 분포

️ 머신러닝

MSE를 사용하는 이유는

여러가지 모델을 만들어 각각의 MSE값을 구해 모델 성능을 비교할 때 사용

다른 데이터셋에서 구한 MSE끼리 비교하는 것은 옳지 않음. 단위가 다르기 때문에 비교할 수 없음.

r2는 분야마다 적정 기준치가 있다....

TIL 작성할 시간이 부족하네요..

내일부터는 진짜 미리미리 쓰겠습니당..

[내일배움 본캠프] 기초통계와 머신러닝

hyeon-ji — Wed, 17 Jun 2026 20:59:21 +0900

☆ To Do List ☆

라이브세션 수강(11시, 7:30)
AI 진단퀴즈
코드카타
통계학 기초 1챕터
머신러닝 기초 수강
자소서 작성
TIL 작성 및 제출

에이타니

에이타니로 "시계열 데이터 분해와 패턴 해석" 부분의 새로운 퀴즈를 풀려고 도전했다가, 하나도 모르겠어서 바로 나와버렸다. 그래서 그 전에 오답률이 높았던 회귀분석 리뷰를 하기로 했다.

다중선형회귀

- 기울기(계수, coefficient0 각 '독립변수 가 종속변수에 얼마나 큰 영향을 미치는가"를 보여주는 값이다. 다중 회귀에서는 하나의 스칼라 값으로 저장되지 않고, 독립변수가 3개이면 기울기도 3개다. 이들을 배열 형태로 저장된다.

계수(기울기) --> 각 독립변수의 영향력 (독립변수 개수만큼)

절편 --> 기준점 1개

성능 지표 --> 모델이 얼마나 잘 작동하는지 (1개, 따로 구해야 함)

CodeKata

def solution(arr, divisor):
    answer = []
    for num in arr:
        if num % divisor == 0:
            answer.append(num)
    
    if not answer:
        return [-1]
    else:
        answer.sort()
        return answer

solution([5, 9, 7, 10], 5)
'''
결과
[5, 10]
'''

기초통계

오늘 진행한 기초 통계 학습에서는 딱히 어려운 부분이 없었다.

추론 통계는 ' 가설 검정, 신뢰구간 ' 등을 말하고, 기술 통계는 우리가 흔히 알고 있는 ' 평균값, 중앙값, 최빈값, 분산, 표준편차 ' 등이 이에 해당한다.

추론 통계는 ' 표본 ' 데이터를 활용해서 ' 전체 '에 대해 ' 추론 '하고 ' 검증 '하는 것을 의미한다. ex) ANOVA, 회귀분석, 카이제곱...

기술 통계는 데이터를 ' 계산 '하고, ' 요약·설명 '하는 것을 의미한다. ex) 최댓값, 최솟값, 평균, 분산, 표준편차, 히스토그램, 박스플롯...

데이터 분석이란?

정답을 맞히는 것이 아니라 데이터로 가능성을 하나씩 제거하며 판단의 범위를 좁혀가는 과정이다.

통계는 이러한 과정을 객관적으로 수행할 수 있도록 돕는 도구이며, 분석가의 편향이 개입되지 않고 누구나 동일한 결과를 재현할 수 있는 분석이 좋은 분석이다.

변수(데이터) 종류

1. 수치형 : 사칙연산이 가능한 데이터

연속형 : 측정하는 값 ex) 키, 몸무게
정수형 : 셀 수 있는 값 ex) 불량품 개수

2. 범주형 : 범주로 나뉘어지는 데이터

명목 변수 : 순위가 없는 데이터 ex) 남성, 여성
서수 변수 : 순위가 있는 데이터 ex) 학점 A, B, C, D, F

️ 머신러닝

기계학습의 3분류

	지도학습	비지도학습	강화학습
학습 방식	문제와 답(label)을 주고 모델을 학습시킨 후, 문제에 대한 답을 예측하는 방식	답(label)을 사전에 지정하지 않은 데이터로부터 특정 패턴을 찾아내는 방식	주어진 상태(state)에서 보상(reward)이 최대인 행동(action)을 찾아가는 방식
특징	학습데이터 확보 필수, 목표값(label) 필수	학습 데이터 확보 필수, 목표값(label) 불필요	학습 데이터 확보 불필요, 상태, 행동, 보상에 대한 실험환경 필요
세부 유형	회귀, 분류	군집화, 차원축소	가치 기반 기법, 정책 기반 기법
제조분석예시	공정기반 불량패턴 분류, 수요 예측	생산공정 군집화, 장비 이상상황 감지	생산일정계획 수립, 물류로봇 이동경로

지도학습과 비지도학습의 알고리즘

지도학습

분류 > Decision Tree, Logistic Regression, Naive Bayes Classifier, Support Vector, Neural Network, Random Forest
회귀 > Regression, Generalized Linear Model, k-Nearest Neighbors(k-NN), Neural Network, Time-Series Analysis

비지도학습

군집화 : k-Means, Hierarchical Clusteringm Density-based Clustering, Model-based Clistering
연관 분석 & 차원 축소 : Association Rule Mining, Sequential Rule Mining, Causality Analysis

새로운 조로 편성되고, 새로운 학습 주차가 시작되면서 많이 정신없었던 것 같다. 통계 기초를 학습할 때까지만 해도 이미 다 알고 있는 내용이고~ 그렇게 어렵지 않네~ 라는 생각을 하면서 편안하게 듣고 있었는데,,

머신러닝 강의를 들으면서 인사이 찌풀어졌다.

그래서 그게 뭔데..??

오늘 처음 배우면서 약간 훑는다는 느낌으로 들었다.

내일부터 모르는거 차근차근 알아보면서 들어야겠다!