☆ To Do List ☆
- AI 진단퀴즈
- 머신러닝 심화 1-7 수강
- 자소서 작성하기
- 라이브세션(19:30)
- 아티클 스터디
- TIL 작성 및 제출
🤖 에이타니
● Feature Engineering란?
- 원본 데이터로부터 새로운 특성을 생성하거나 기존 특성을 변환하는 과정이다.
- 모델의 예측 성능을 향상시키기 위한 핵심적인 데이터 전처리 기법이다.
- 적절한 Feature Engineering을 통해 단순한 모델로도 높은 성능을 달성할 수 있다.
- 도메인 지식과 데이터에 대한 이해가 매우 중요한 과정이다.
🖥️ 머신러닝
■ 데이터 분석에서 전처리가 중요한 이유
데이터 분석은 단순히 모델을 만드는 과정이 아니라, 실제 업무에서는 데이터를 수집하고, 이해하고, 정제하는 과정이 대부분의 시간을 차지한다. 특히 데이터 전처리는 전체 분석 과정의 약 80~90%를 차지할 정도로 중요한 단계이다!
1. 데이터 분석 프로세스

- Data Source → DB, 로그, API, 외부 데이터 등 원천 데이터
- Data Lake → Raw Data 저장
- Data Warehouse → 정제된 데이터를 저장
- Data Mart → 특정 부서 목적에 맞게 가공된 데이터
- BI / Analytics → 분석 및 의사결정 활용
● 데이터 수집 방법
- SQL을 이용한 사내 데이터 추출
- CSV / Excel 파일 활용
- Open API 활용
- 웹 크롤링(Web Crawling)
2. 탐색적 데이터 분석(EDA)
→ EDA(Exploratory Data Analysis)는 데이터를 본격적으로 분석하기 전에 데이터의 특징과 구조를 파악하는 과정이다.
EDA를 통해
- 데이터 분포 확인
- 이상치 확인
- 결측치 확인
- 변수 간 관계 파악
- 모델링 방향 결정
등을 수행할 수 있다.
● 대표적인 EDA 시각화
| 그래프 | 목적 |
| Count Plot | 범주별 빈도 확인 |
| Bar Plot | 그룹별 평균 비교 |
| Box Plot | 분포 및 이상치 확인 |
| Histogram | 데이터 분포 확인 |
| Scatter Plot | 변수 간 관계 확인 |
| Pair Plot | 전체 변수 관계 확인 |
3. 데이터 전처리
→ 데이터 전처리는 분석 가능한 형태로 데이터를 정리하는 과정이다.
대표적으로
- 이상치 처리
- 결측치 처리
- 인코딩
- 스케일링
을 수행한다.
4. 이상치(Outlier) 처리
→ 이상치는 일반적인 데이터 범위에서 크게 벗어난 값을 의미한다.
● 대표적인 탐지 방법
① ESD (3σ Rule) : 평균에서 표준편차의 3배 이상 벗어난 값
평균 ± 3 × 표준편차
② IQR 방법 : 사분위수를 이용한 이상치 탐지
IQR = Q3 - Q1
상한 = Q3 + 1.5 × IQR
하한 = Q1 - 1.5 × IQR
※ 주의사항
이상치는 무조건 제거하는 것이 옳은 방법이 아니다.
- 실제 오류 데이터일 수도 있음
- 중요한 이벤트일 수도 있음
따라서 도메인 지식을 고려하여 판단하는 것이 중요하다.
5. 결측치(Missing Value) 처리
→ 결측치는 값이 존재하지 않는 데이터를 의미한다.
① 수치형 데이터
- 평균값 대치
- 중앙값 대치
② 범주형 데이터
- 최빈값 대치
③ 처리 방법
- 삭제(Drop)
- 단순 대치(Imputation)
- 머신러닝 기반 대치(KNN, 회귀 대치 등)
※ 주의사항
평균값 대치는 쉽지만 이상치가 많을 경우 왜곡될 수 있으므로 중앙값을 사용하는 경우도 많다.
6. 범주형 데이터 전처리 (인코딩)
① Label Encoding : 범주를 숫자로 변환
1등급 → 0
2등급 → 1
3등급 → 2
▶ 장점
- 간단함
- 차원 증가 없음
▶ 단점
- 순서가 없는 데이터에도 순서가 있다고 학습할 수 있음
② One-Hot Encoding : 각 범주를 독립적인 변수로 변환
빨강 → [1,0,0]
파랑 → [0,1,0]
초록 → [0,0,1]
▶ 장점
- 순서 왜곡 방지
- 명목형 데이터에 적합
▶ 단점
- 범주 수가 많으면 차원 증가
7. 수치형 데이터 전처리 (스케일링)
→ 각 변수의 단위 차이를 보정하는 과정이다.
① 표준화 (Standardization) : 평균 0, 표준편차 1로 변환

▶ 특징
- 가장 많이 사용
- 이상치가 있어도 비교적 안정적
② 정규화 (Normalization) : 0~1 범위로 변환

▶ 특징
- 최소값 0
- 최대값 1
▶ 단점
- 이상치에 민감
③ 로버스트 스케일링 (Robust Scaling) : 중앙값과 IQR을 이용

▶ 특징
- 이상치 영향 최소화
- 데이터가 치우친 경우 유용
'내일배움 본캠프' 카테고리의 다른 글
| [내일배움 본캠프]머신러닝 알고리즘 종류와 특징 (0) | 2026.06.26 |
|---|---|
| [내일배움 본캠프] 과적합이란? (0) | 2026.06.25 |
| [내일배움 본캠프] 통계에서 재현성의 중요성 (0) | 2026.06.23 |
| [내일배움 본캠프] 통계를 이용한 데이터 분석 (1) | 2026.06.22 |
| [내일배움 본캠프] 가설검증(통계) (0) | 2026.06.19 |