[내일배움 본캠프]EDA와 데이터 전처리

내일배움 본캠프

[내일배움 본캠프]EDA와 데이터 전처리

hyeon-ji 2026. 6. 24. 20:38

☆ To Do List ☆

AI 진단퀴즈
머신러닝 심화 1-7 수강
자소서 작성하기
라이브세션(19:30)
아티클 스터디
TIL 작성 및 제출

🤖 에이타니

● Feature Engineering란?

원본 데이터로부터 새로운 특성을 생성하거나 기존 특성을 변환하는 과정이다.
모델의 예측 성능을 향상시키기 위한 핵심적인 데이터 전처리 기법이다.
적절한 Feature Engineering을 통해 단순한 모델로도 높은 성능을 달성할 수 있다.
도메인 지식과 데이터에 대한 이해가 매우 중요한 과정이다.

🖥️ 머신러닝

■ 데이터 분석에서 전처리가 중요한 이유

데이터 분석은 단순히 모델을 만드는 과정이 아니라, 실제 업무에서는 데이터를 수집하고, 이해하고, 정제하는 과정이 대부분의 시간을 차지한다. 특히 데이터 전처리는 전체 분석 과정의 약 80~90%를 차지할 정도로 중요한 단계이다!

1. 데이터 분석 프로세스

Data Source → DB, 로그, API, 외부 데이터 등 원천 데이터
Data Lake → Raw Data 저장
Data Warehouse → 정제된 데이터를 저장
Data Mart → 특정 부서 목적에 맞게 가공된 데이터
BI / Analytics → 분석 및 의사결정 활용

● 데이터 수집 방법

SQL을 이용한 사내 데이터 추출
CSV / Excel 파일 활용
Open API 활용
웹 크롤링(Web Crawling)

2. 탐색적 데이터 분석(EDA)

→ EDA(Exploratory Data Analysis)는 데이터를 본격적으로 분석하기 전에 데이터의 특징과 구조를 파악하는 과정이다.

EDA를 통해

데이터 분포 확인
이상치 확인
결측치 확인
변수 간 관계 파악
모델링 방향 결정

등을 수행할 수 있다.

● 대표적인 EDA 시각화

그래프	목적
Count Plot	범주별 빈도 확인
Bar Plot	그룹별 평균 비교
Box Plot	분포 및 이상치 확인
Histogram	데이터 분포 확인
Scatter Plot	변수 간 관계 확인
Pair Plot	전체 변수 관계 확인

3. 데이터 전처리

→ 데이터 전처리는 분석 가능한 형태로 데이터를 정리하는 과정이다.

대표적으로

이상치 처리
결측치 처리
인코딩
스케일링

을 수행한다.

4. 이상치(Outlier) 처리

→ 이상치는 일반적인 데이터 범위에서 크게 벗어난 값을 의미한다.

● 대표적인 탐지 방법

① ESD (3σ Rule) : 평균에서 표준편차의 3배 이상 벗어난 값

평균 ± 3 × 표준편차

② IQR 방법 : 사분위수를 이용한 이상치 탐지

IQR = Q3 - Q1

상한 = Q3 + 1.5 × IQR
하한 = Q1 - 1.5 × IQR

※ 주의사항

이상치는 무조건 제거하는 것이 옳은 방법이 아니다.

실제 오류 데이터일 수도 있음
중요한 이벤트일 수도 있음

따라서 도메인 지식을 고려하여 판단하는 것이 중요하다.

5. 결측치(Missing Value) 처리

→ 결측치는 값이 존재하지 않는 데이터를 의미한다.

① 수치형 데이터

평균값 대치
중앙값 대치

② 범주형 데이터

최빈값 대치

③ 처리 방법

삭제(Drop)
단순 대치(Imputation)
머신러닝 기반 대치(KNN, 회귀 대치 등)

※ 주의사항

평균값 대치는 쉽지만 이상치가 많을 경우 왜곡될 수 있으므로 중앙값을 사용하는 경우도 많다.

6. 범주형 데이터 전처리 (인코딩)

① Label Encoding : 범주를 숫자로 변환

1등급 → 0
2등급 → 1
3등급 → 2

▶ 장점

간단함
차원 증가 없음

▶ 단점

순서가 없는 데이터에도 순서가 있다고 학습할 수 있음

② One-Hot Encoding : 각 범주를 독립적인 변수로 변환

빨강 → [1,0,0]
파랑 → [0,1,0]
초록 → [0,0,1]

▶ 장점

순서 왜곡 방지
명목형 데이터에 적합

▶ 단점

범주 수가 많으면 차원 증가

7. 수치형 데이터 전처리 (스케일링)

→ 각 변수의 단위 차이를 보정하는 과정이다.

① 표준화 (Standardization) : 평균 0, 표준편차 1로 변환

▶ 특징

가장 많이 사용
이상치가 있어도 비교적 안정적

② 정규화 (Normalization) : 0~1 범위로 변환

▶ 특징

최소값 0
최대값 1

▶ 단점

이상치에 민감

③ 로버스트 스케일링 (Robust Scaling) : 중앙값과 IQR을 이용

▶ 특징

이상치 영향 최소화
데이터가 치우친 경우 유용

'내일배움 본캠프' 카테고리의 다른 글

[내일배움 본캠프]머신러닝 알고리즘 종류와 특징 (0)	2026.06.26
[내일배움 본캠프] 과적합이란? (0)	2026.06.25
[내일배움 본캠프] 통계에서 재현성의 중요성 (0)	2026.06.23
[내일배움 본캠프] 통계를 이용한 데이터 분석 (1)	2026.06.22
[내일배움 본캠프] 가설검증(통계) (0)	2026.06.19

현재글[내일배움 본캠프]EDA와 데이터 전처리

hyeon-ji 님의 블로그

@스파르타 QAQC_6기 캠프에서의 활동 기록@

상관계수, 아티클 스터디, 데이터 시각화, 팀 프로젝트, Til, 머신러닝, 파이썬, 전처리, 이상치, 가설검증, 내일배움, Python, 결측치, SQL, 데이터 리터러시, 사전캠프, 라이브러리, 프로젝트, 데이터 전처리, 데이터 분석,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

hyeon-ji 님의 블로그