내일배움 본캠프

[내일배움 본캠프]EDA와 데이터 전처리

hyeon-ji 2026. 6. 24. 20:38

☆ To Do List ☆

  • AI 진단퀴즈
  • 머신러닝 심화 1-7 수강
  • 자소서 작성하기
  • 라이브세션(19:30)
  • 아티클 스터디
  • TIL 작성 및 제출

🤖 에이타니

● Feature Engineering란?

 

  • 원본 데이터로부터 새로운 특성을 생성하거나 기존 특성을 변환하는 과정이다.
  • 모델의 예측 성능을 향상시키기 위한 핵심적인 데이터 전처리 기법이다.
  • 적절한 Feature Engineering을 통해 단순한 모델로도 높은 성능을 달성할 수 있다.
  • 도메인 지식과 데이터에 대한 이해가 매우 중요한 과정이다.

🖥️ 머신러닝

■ 데이터 분석에서 전처리가 중요한 이유

데이터 분석은 단순히 모델을 만드는 과정이 아니라, 실제 업무에서는 데이터를 수집하고, 이해하고, 정제하는 과정이 대부분의 시간을 차지한다. 특히 데이터 전처리는 전체 분석 과정의 약 80~90%를 차지할 정도로 중요한 단계이다!

 

 

1. 데이터 분석 프로세스

  1. Data Source     →    DB, 로그, API, 외부 데이터 등 원천 데이터
  2. Data Lake     →    Raw Data 저장
  3. Data Warehouse     →    정제된 데이터를 저장
  4. Data Mart     →    특정 부서 목적에 맞게 가공된 데이터
  5. BI / Analytics     →    분석 및 의사결정 활용

● 데이터 수집 방법

 

  • SQL을 이용한 사내 데이터 추출
  • CSV / Excel 파일 활용
  • Open API 활용
  • 웹 크롤링(Web Crawling)

 

 

2. 탐색적 데이터 분석(EDA)

→ EDA(Exploratory Data Analysis)는 데이터를 본격적으로 분석하기 전에 데이터의 특징과 구조를 파악하는 과정이다.

 

EDA를 통해

  • 데이터 분포 확인
  • 이상치 확인
  • 결측치 확인
  • 변수 간 관계 파악
  • 모델링 방향 결정

등을 수행할 수 있다.

 

● 대표적인 EDA 시각화

그래프 목적
Count Plot 범주별 빈도 확인
Bar Plot 그룹별 평균 비교
Box Plot 분포 및 이상치 확인
Histogram 데이터 분포 확인
Scatter Plot 변수 간 관계 확인
Pair Plot 전체 변수 관계 확인

 

3. 데이터 전처리

 데이터 전처리는 분석 가능한 형태로 데이터를 정리하는 과정이다.

대표적으로

  • 이상치 처리
  • 결측치 처리
  • 인코딩
  • 스케일링

을 수행한다.

 

4. 이상치(Outlier) 처리

→ 이상치는 일반적인 데이터 범위에서 크게 벗어난 값을 의미한다.

 

 대표적인 탐지 방법

 

① ESD (3σ Rule) : 평균에서 표준편차의 3배 이상 벗어난 값

평균 ± 3 × 표준편차
 

② IQR 방법 : 사분위수를 이용한 이상치 탐지

IQR = Q3 - Q1

상한 = Q3 + 1.5 × IQR
하한 = Q1 - 1.5 × IQR

 

※ 주의사항

이상치는 무조건 제거하는 것이 옳은 방법이 아니다.

  • 실제 오류 데이터일 수도 있음
  • 중요한 이벤트일 수도 있음

따라서 도메인 지식을 고려하여 판단하는 것이 중요하다.

 

5. 결측치(Missing Value) 처리

→ 결측치는 값이 존재하지 않는 데이터를 의미한다.

 

수치형 데이터

 

  • 평균값 대치
  • 중앙값 대치

 

② 범주형 데이터

  • 최빈값 대치

③ 처리 방법

 

  • 삭제(Drop)
  • 단순 대치(Imputation)
  • 머신러닝 기반 대치(KNN, 회귀 대치 등)

 

 주의사항

평균값 대치는 쉽지만 이상치가 많을 경우 왜곡될 수 있으므로 중앙값을 사용하는 경우도 많다.

 

6. 범주형 데이터 전처리 (인코딩)

① Label Encoding : 범주를 숫자로 변환

1등급 → 0
2등급 → 1
3등급 → 2
 

▶ 장점

  • 간단함
  • 차원 증가 없음

 단점

  • 순서가 없는 데이터에도 순서가 있다고 학습할 수 있음

One-Hot Encoding : 각 범주를 독립적인 변수로 변환

빨강 → [1,0,0]
파랑 → [0,1,0]
초록 → [0,0,1]

 

▶ 장점

 

  • 순서 왜곡 방지
  • 명목형 데이터에 적합

 단점

  • 범주 수가 많으면 차원 증가

 

7. 수치형 데이터 전처리 (스케일링)

→ 각 변수의 단위 차이를 보정하는 과정이다.

 

① 표준화 (Standardization) : 평균 0, 표준편차 1로 변환

 

특징

  • 가장 많이 사용
  • 이상치가 있어도 비교적 안정적

 정규화 (Normalization) : 0~1 범위로 변환

 

▶ 특징

  • 최소값 0
  • 최대값 1

▶ 단점

  • 이상치에 민감

③ 로버스트 스케일링 (Robust Scaling) : 중앙값과 IQR을 이용

 

▶ 특징

  • 이상치 영향 최소화
  • 데이터가 치우친 경우 유용