[내일배움 본캠프] 데이터 분석 시작!

내일배움 본캠프

[내일배움 본캠프] 데이터 분석 시작!

hyeon-ji 2026. 6. 9. 20:58

☆ To Do List ☆

AI 진단퀴즈
데이터 코드카타
데이터 시각화 복습
아티클 스터디
TIL 작성 및 제출

🤖 에이타니

아직 배우지 않은 개념에 대해 퀴즈를 풀어서인지 계속 틀려서.. 오늘은 AI진단퀴즈 대신 리뷰노트를 통해 이전에 틀렸던 개념들에 대해 복습하는 시간을 가졌다.

→ header=None을 사용하면 pandas가 첫 번째 행을 데이터로 취급하고, 자동으로 0, 1, 2... 같은 숫자를 열 이름으로 생성한다.

→ 반면 header=0(기본값)은 첫 번째 행을 헤더로 인식한다는 뜻이에요. 헤더가 있는 CSV 파일을 읽을 때는 이 기본값이 적용된다.

df['컬럼명']이 가장 일반적이다.
df.컬럼 : 점 표기법도 컬렴명에 공백이나 특수문자가 없을 때 사용 가능하다.
loc는 라벨 기반 인덱싱으로 모든 행(:)과 특정 컬럼명을 지정할 수 있다.
iloc 정수 위치 기반 인덱싱으로 컬럼의 인덱스 번호를 사용한다.

🔐 CodeKata

● 정수 내림차순으로 배치하기

def solution(n):
  nstr = str(n)
  digits = sorted(list(nstr), reverse=True)
  answer = int(''.join(digits))
  return answer

print(solution(118372))

📊프로젝트

오늘은 본격적으로 데이터를 분석하며 시각화하는 시간을 가졌다.

내가 생각한 대로 분석을 진행해 보고 막히는 부분이나 헷갈리는 부분이 있으면 같이 분석을 진행하는 팀원분과 함께 대화를 나누며 해결해 나갔다. 내가 미쳐 생각해보지 못했던 부분을 듣거나 헷갈렸던 부분을 토론하며 인사이트를 도출해 나갔다.

중간중간에 다른 팀원들한테 해당 내용을 공유하며 현재의 진척도에 대한 피드백을 받으며 진행해 나갔다.

1. 개요
🔩 가스 센서 데이터를 활용해 산업 현장의 안전 혁신에 대응하세요!

당신은 산업 안전 관리 기업의 데이터 분석팀 소속 안전 분석가입니다. 이 기업은 작업 현장 내 가스 누출, 온도 상승, 환경 이상과 같은 위험 요소를 조기에 파악하여 산업재해를 예방하는 것을 최우선 과제로 삼고 있습니다. 최근에는 데이터 기반 안전관리 시스템을 도입하여, 작업 환경에서 발생할 수 있는 잠재적 위험을 실시간으로 감지하고 사고 가능성을 낮추기 위한 체계를 강화하고 있습니다.
🔩 산업 안전 데이터 분석가로서의 당신의 역할은 다음과 같습니다.

가스 센서 데이터를 기반으로 위험 발생 원인을 분석하고, 반복적인 위험 상황을 줄일 수 있는 데이터 기반 안전관리 전략을 수립해야 합니다. CO, CO₂, CH₄, H₂, 온도, 습도 등 주요 변수들이 위험도 상승에 어떤 영향을 미치는지 탐색해야 합니다. 위험 발생과 관련된 환경 조건의 이상 징후를 사전에 포착할 수 있는 데이터 인사이트를 도출하는 것이 핵심입니다.

첫 번째 가설 ; 공정별 위험도에 영향을 미치는 요인이 다를 것이다.

처음에는 전체 데이터 중에 위험도 가장 영향을 많이 미치는 변수를 확인하기 위해 Heatmap을 그렸다.

위험도에 영향을 미치는 요인 : CO > H2 > CH4 > 온도 > CO2 > 습도

위의 결과를 확인한 후 데이터 전체가 아닌, '공정별로 위험도에 영향을 미치는 요인이 다르지 않을까? '라는 의문점을 가지고 여러 분석을 진행했다.

Bar chart를 그려 각 공정별로 어떤 요인이 가장 위험도에 강한 영향을 미치는지 확인하고, 계속 같은 값이 나오는 데에 특별한 이유가 있을지 확인하기 위해 다중공선성을 확인해 보았다. 하지만 각 요인은 서로에 영향을 주지 않는 독립적인 관계임을 확인했다.

그나마 다른 공정보다 압출 공정에서는 H2가 영향력이 조금 큰 것으로 파악되었다.

처음에는 위험도에 영향을 미치는 요인이 동일한 순서로 나와서 많이 헤맸던 것 같다.

분석에는 문제가 없었지만, 해당 분석 과정에서 얻을 수 있는 인사이트가 부족하다고 생각하여 이것저것 많이 돌려보며 시간을 많이 투자했다. 결국에는 위험도에 영향을 미치는 순서(CO > H2 > CH4)에는 변함이 없었다..ㅎㅎ

이후에 임계값을 설정하였다.

분석 과정에서 요인이 각각 공정에 미치는 영향보다 복합적으로 영향을 미친다는 것을 알게 되어 이를 사용하여 임계값을 설정했다.

일단 각 요인들의 단위가 다르므로 표준화를 해준 다음, 상관계수를 이용하여 가중치를 주어 USL, LSL 기준선을 만들었다.

정확한 인사이트를 아직 도출하진 못해서, 내일 중으로 지금까지 한 결과 정리와 인사이트를 도출할 예정이다!!

그래도 나름 뭔가 결과가 나오니 뿌듯하다.

맞게 잘 분석한 건지는 모르겠지마안? 최선을 다했다,,

~~하루 종일 분석만 했다요..~~

내일 싹 정리해서 올려봐야겠다..!

'내일배움 본캠프' 카테고리의 다른 글

[내일배움 본캠프] 발표자료 만들기 (0)	2026.06.11
[내일배움 본캠프] 데이터 시각화 마무리 (1)	2026.06.10
[내일배움 본캠프] 프로젝트 시작! (1)	2026.06.08
[내일배움 본캠프]데이터 전처리&시각화 Last day.. (0)	2026.06.05
[내일배움 본캠프]Seaborn 라이브러리 (0)	2026.06.04

현재글[내일배움 본캠프] 데이터 분석 시작!

hyeon-ji 님의 블로그

@스파르타 QAQC_6기 캠프에서의 활동 기록@

데이터 분석, 머신러닝, 내일배움, 프로젝트, Til, 팀 프로젝트, 아티클 스터디, Python, 전처리, 라이브러리, 이상치, 파이썬, 사전캠프, 데이터 시각화, SQL, 상관계수, 결측치, 데이터 전처리, 데이터 리터러시, 가설검증,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

hyeon-ji 님의 블로그