[내일배움 본캠프] 데이터 전처리와 시각화 기초

내일배움 본캠프

[내일배움 본캠프] 데이터 전처리와 시각화 기초

hyeon-ji 2026. 5. 28. 20:12

☆ To do list ☆

에이타니와 문제풀기
CodeKata 2문제 풀기
데이터 전처리 & 시각화 강의 1차시 수강
아티클 스터디
라이브 세션 수강
TIL 작성 및 제출

🤖 에이타니

오늘은 '시계열 데이터 보간과 전처리 이해' 를 주제로 문제를 풀어보았다.

틀린 문제 없이 퀴즈를 마무리 했지만 처음 보는 용어나 헷갈리는 부분들이 있었다.

● 스플라인 보간법 : 부드러운 곡선을 만들어 결측값을 채울 수 있다.

● interpolate() : 이 메서드는 시계열 데이터의 결측치를 보간법으로 채우는 기능을 한다.

→ 이상치를 무조건 삭제하는 것이 좋지 않다는 것은 인지하고 있었지만, 이번 문제를 통해 품질적으로 생각을 넓혀갈 수 있었다. 단순히 이상치를 제거하고 분석을 진행하면 분석 과정이 쉬워질 수는 있을 것 같다. 하지만 품질 관리에서 이상치는 단순한 noise가 아니라 실제 공정의 이상 상태, 장비 고장, 품질 결함 등의 품질 risk를 나타내는 중요한 정보를 담고 있을 수 있어 삭제하는 것은 올바르지 않다. 먼저 이상치의 원인을 파악하고 실제 측정 오류인지 공정 문제인지 판단 후 적절히 처리해나가는 것이 중요하다라는 것을 알게되었다.

🔐 CodeKata

def solution(angle):
  if angle < 90:
    return 1
  elif angle == 90:
    return 2
  elif angle < 180:
    return 3
  elif angle == 180 :
    return 4

solution(70)

# 70은 예각이므로 '1' 출력

def solution(n):
  answer = 0
  for i in range(0,n+1):
    if i % 2 == 0:
      answer += i
  return answer

n = 10
solution(n)

# 2+4+6+8+10 이므로 30 출력

📰 아티클 스터디

이번 아티클은 Q. 데이터 분석으로 제조 품질관리 문제를 어떻게 해결하나요?을 주제로 다양한 기업의 공고를 확인해보고, 제조업체에서 시행하고 있는 AI 관련 기술들을 다루는 뉴스 기사글을 읽어보았다.

팀원들과 의논하며 해당 캠프에서 Python 역량을 어느 정도까지 키워야 하는지에 대한 이야기를 나눈 적이 있었는데, 이 아티클을 읽으며 제조업 현장에서 실제로 요구되는 데이터 분석 역량과 기술 활용 수준을 조금 더 구체적으로 이해할 수 있었다. 또한 앞으로 캠프에서 어느 정도의 코드 작성 능력과 데이터 분석 역량을 키워나가야 할지 방향성을 생각해보게 되는 시간이었다.

💻 Python

▶ pip

→ "Python Installer Package"의 약자로, Python의 라이브러리를 설치 및 관리하는 도구이다.

↓↓↓ 주로 사용되는 pip의 명령어 ↓↓↓

pip list : 설치된 패키지 목록 조회
pip install 패키지명 : 패키지 설치

pip install pandas
pip install numpy
pip install matplotlib

pip install 패키지명==버전 : 특정 버전 설치

● pip 명령어들

명령어	설명	예시
pip --version	설치된 pip 버전 확인	pip --version
pip list	설치된 패키지 목록 조회	pip list
pip list \| findstr py	특정 문자열 포함 패키지 검색 (Windows)	pip list \| findstr py
pip show 패키지명	패키지 상세 정보 확인	pip show pandas
pip install 패키지명	패키지 설치	pip install numpy
pip install 패키지명==버전	특정 버전 설치	pip install pandas==2.2.2
pip install --upgrade 패키지명	패키지 최신 버전 업그레이드	pip install --upgrade numpy
pip install --upgrade pip	pip 자체 업그레이드	pip install --upgrade pip
pip uninstall 패키지명	패키지 삭제	pip uninstall matplotlib
pip freeze	설치 패키지 버전 목록 출력	pip freeze
pip freeze > requirements.txt	현재 환경 패키지 저장	pip freeze > requirements.txt
pip install -r requirements.txt	requirements 파일 기반 설치	pip install -r requirements.txt
pip search 패키지명	패키지 검색 (현재는 deprecated)	pip search tensorflow
pip cache dir	pip 캐시 경로 확인	pip cache dir
pip cache purge	pip 캐시 삭제	pip cache purge
python -m pip install 패키지명	특정 Python 환경 기준 설치	python -m pip install scikit-learn
python -m ensurepip	pip 복구/초기 설치	python -m ensurepip

▶ 가상환경(venv)

→ Python 프로젝트를 진행 시 코드 입력하는 사람마다 사용하는 버전이 상이하여 버전 충돌로 에러가 자주 발생하곤 한다. 라이브러리 버전 관리 팀원 간 동일 환경 유지, 배포/협업 시 재현성 확보를 위해 가상 환경을 사용하는 것이 좋다.

● 가상환경 생성하기

프로젝트 폴더 내부 터미널에서
python -m venv venv
|
입력
|  <ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
# window							|
.\venv\Scripts\activate						|
# mac								|
source venv/bin/activate					|
|								|
입력								|
|								|
# 보안 오류로 위의 코드 실행 불가 시				|
Set-ExecutionPolicy -Scope Process -ExecutionPolicy RemoteSigned|
|								|
입력ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ

# 결과 : 터미널 앞에 (venv)표시 생성

▶ Numpy

→ "Numerical Python"의 줄임말로, Python에서 산술 계산을 위한 가장 중요한 패키지 중 하나이다.

→ 핵심 기능 중 하나는 Python에서 할 수 있는 대규모 데이터 직합을 담을 수 있는 빠르고 유연한 자료구조인 " ndarray " 라고 하는 N차원의 배열 객체이다.

● 연산

→ Numpy에서 ndarray를 사용하면 복잡한 행렬 연산(선형대)이 가능해진다.

x = np.array([[1,2], [3,4]], dtype=np.float64)
y = np.array([[5,6], [7,8]], dtype=np.float64)
print(x)
print(y)

# 행렬곱
print(x @ y)
print(np.matmul(x, y))

    ''' 
   Output
 [[19. 22.]
  [43. 50.]]
 [[19. 22.]
  [43. 50.]
     '''

● 슬라이싱

→ Numpy에서 ndarray를 사용하면 비교적 쉽고 다양하게 슬라이싱이 가능하다.

sum1 = np.sum(z, axis=0)
sum2 = np.sum(z, axis=1)

print(sum1, sum1.shape)
print(sum2, sum2.shape)

# Output
# [ 7  9 11 13 15] (5,)
# [15 40] (2,)

print(z[0,:] + z[1,:]) # np.sum(z, axis=0)의 의미
# Output: [ 7  9 11 13 15]
print(z[:,0] + z[:,1] + z[:,2] + z[:,3] + z[:,4]) # np.sum(z, axis=1)의 의미
# Output: [15 40]

▶ 데이터 분석가란?

비즈니스 분석가(BA) : 비즈니스 문제와 요구 사항을 분석하여 데이터 기반 의사 결정을 지원하는 역할
프로덕트 분석가(PA) : 사용자 행동과 제품 데이터를 분석하여 제품 및 서비스의 성과 개선에 기여하는 역할
데이터 분석가(DA) : 데이터를 수집·정제·분석하여 기업의 의사 결정에 필요한 인사이트를 제공하는 역할
BI 분석가(BI) : BI 도구를 활용해 데이터를 시각화하고 대시보드를 구축하여 경영 의사 결정을 지원하는 역할
데이터 사이언티스트(DS) : 통계와 머신러닝 기법을 활용해 예측 모델을 구축하고 복잡한 비즈니스 문제를 해결하는 역할

▶ 데이터 분석을 하는 이유?

상대방을 '설득'하기 위해 데이터를 분석하고 잘 전달하기 위해 '시각화'를 통해 결과를 도출한다.

적절한 시각화 자료를 사용하면 분석 결과를 더욱 돋보이게할 수 있지만, 시각화 자료 생성 시 결과값이 과장되거나 왜곡되지 않도록 주의해야 한다.

● 데이터 전처리 & 시각화 주의점!

→ 내가 어떤 '목적'을 가지고 데이터 분석을 할 것인지를 먼저 '정의'해야 원하는 결과를 얻을 수 있다. 그렇지 않으면 분석 과정에서 방향을 잊어버리거나 의도와 알맞지 않은 시각화로 이어질 수 있다.

- 목적성과 효과성이 동일해야지 시각화가 잘 됐다고 볼 수 있다.

- 데이터 전처리와 시각화는 '목적성'을 가져야 한다. 즉, 데이터 전처리와 시각화 과정 이전에 목표를 설정하는 것이 중요하다.

- 데이터 전처리 & 시각화를 수행하며 나타날 예상 산출물이 무엇일지 정의하는 것이 필요하다.

- As-is와 To-be를 생각하며 분석 방향성을 설정하는 과정이 필요하다.

예시)

구분	내용
목표	☆☆ 을 통해서 00을 향상시킨다.
예상 산출물	☆☆ 을 통해서 000 산출물을 완성한다.
As-is	☆☆ 문제로 인해서 000한 상황
To-be	☆☆ 을 통해서 000 개선을 이룸

오늘은 데이터 분석을 하기 위한 전처리와 시각화 방법을 배우는 첫 날이었다.

첫 날이라 그런지 많은 내용을 배우지는 않았지만, VS Code를 설치하고 세팅하는 것이 좀 어려웠다.

파이썬 버전이 맞지 않거나, 보안 오류로 venv가 설정되지 않거나 ,, 등등 여러 문제가 있었지만,

튜터님의 도움을 받아 잘 해결해나갈 수 있었다.

그래도 이번 주차는 큰 어려움은 없지 않을 것 같다고 느꼈다.

사용되는 라이브러리나 함수를 외우지 않고, 필요할 때 원하는 것을 찾아 '잘' 활용할 줄 알면 괜찮다고 해주셔서..ㅎㅎ

시각화하는 방법이야 말로 현업에서 많이 사용할 수 있을 것 같아 열심히 배워야겠다.

'내일배움 본캠프' 카테고리의 다른 글

[내일배움 본캠프] 결측치 제거, 채움 & K-NN (0)	2026.06.01
[내일배움 본캠프] Outlier처리하기, 속성과 메서드 (1)	2026.05.29
[내일배움 본캠프] Python 기초 마무리 Day (1)	2026.05.27
[내일배움 본캠프] Python 기초 다지기 (0)	2026.05.26
[내일배움 본캠프] 'Python' 데이터 분석 필수 문법 (1)	2026.05.22

현재글[내일배움 본캠프] 데이터 전처리와 시각화 기초

hyeon-ji 님의 블로그

@스파르타 QAQC_6기 캠프에서의 활동 기록@

팀 프로젝트, 데이터 리터러시, 이상치, 사전캠프, 데이터 분석, 데이터 시각화, 가설검증, 상관계수, SQL, 데이터 전처리, 머신러닝, 내일배움, 아티클 스터디, Til, Python, 라이브러리, 결측치, 프로젝트, 파이썬, 전처리,

Today :
Yesterday :

hyeon-ji 님의 블로그