내일배움 본캠프

[내일배움 본캠프]캠프 시작!(라포형성, 데이터 분석(상관관계분석))

hyeon-ji 2026. 5. 11. 20:13

 오늘은 본 캠프가 시작된 첫날이다. 새로 조성된 팀원들과 각자의 TMI를 얘기하고 어떤 분야에 관심이 있고, 해당 부트캠프에 참여하게 된 계기는 무엇인지 얘기하며 라포를 쌓는 시간을 가졌다.

 데이터 분석 종합반 강의를 학습하며 데이터를 전처리하고 Correlation을 분석하는 방법을 익혔다.


더보기
Python이란?      →  사람이 컴퓨터와 대화를 쉽게 하도록 도와주는 '번역팩' 

☆ 라이브러리란?      →  데이터 분석 시, 특정한 동작을 할 수 있게 하는 '코드 모음집'
더보기

< 라이브러리 2종류>

● Pandas : 엑셀 뿐 아니라 여러 종류의 데이터를 다룰 수 있음

● matplolib : Python으로 입력된 시각화 tool

 

▶ 데이터 분석하기

1. 타이타닉 사고에서 부유한 사람들이 더 많이 살아남았을 것이다!

 

 불러온 데이터는 정리되지 않은 상태였다. 데이터 분석을 하기 위해서는 데이터 전처리가 필요한 상태였으므로 스프레드시트의 필터 기능을 활용하여 전처리를 먼저 진행하였다.

필터 사용하기
공백 체크 지우기

 'XLMiner Analysis ToolPak'을 설치하여 Correlation 분석을 진행하였다.

 

 사진과 같이 Input과 Output을 입력하고, Lable in First Row까지 체크한 다음에 분석결과를 추출하였다.

 

 분석한 상관관계 데이터를 보고 타이타닉의 생존자(Survived)는 성별(Sex)과 가장 큰 상관관계를 가지고 있음을 확인할 수 있다.

더보기

※ 상관 관계 분석

● -1 ≤ r ≤ 1

 r=1 또는 r=-1이면 완전한 상관관계를 가지고 있다.

● Outlier가 존재하거나 두 변수간 관계가 비선형인 경우는 '변수변환'을 통해 상관계수를 계산한다.

출처 : https://blog.naver.com/hacksmw/222552379678

 

☞ 왼쪽으로 갈수록 강한 (양의) 상관관계를 가지고 있다고 볼 수 있다.

 추출한 상관관계 데이터를 한눈에 해석하기 쉽도록 시각화하였다.

 

▶ 시각화하는 방법

 

1. 셀 지정하기

 

2. 삽입 → 차트 클릭

 

3. 차트 생성 완료!

 

+ 4. 차트 편집을 통해 내가 원하는 데이터만 표시하기

차트 편집기에서 생존자에 영향을 주는 인자를 확인하기 위해 계열에 있는 Survived를 제외하고 삭제한다.

 

맞춤 설정>계열에 들어가 데이터 라벨을 체크하면 좀 더 정확한 값을 확인할 수 있다.

 

5. 구체화된 시각화 자료 생성 완료!

 

숫자로 이루어져 있는 상관관계 분석표로 생존자와 관련 있는 인자를 찾아낼 때보다 시각화된 차트로 유의미한 인자를 찾아내는데 한눈에 보기 편리하다.

위 시각화된 차트로 생존자는 성별과 약 0.54만큼 관련이 있다는 것을 확인할 수 있다.


▶ 실습 진행

 

타이타닉 데이터 분석과 동일하게 XLMiner Analysis ToolPak을 이용하여 Correlation 분석을 진행했다.

상관관계 분석 결고 화면
시각화 화면

 

분석 결과 "Glucose"인자가 당뇨병 발생에 가장 큰 영향을 미치는 인자임을 알아내었다.


오늘 캠프는 주로 OT 진행과 더불어 팀원들과 시간을 많이 보냈다. 앞으로 5개월간 함께 의지하며 캠프를 수료해 나가고 프로젝트를 진행할 팀원들과 서로 알아가는 시간을 가지며 의지를 다지는 시간이었던 것 같다.

처음이라 많이 어색하지만 앞으로 더 친해져서 모르는 부분을 서스럼없이 공유하며 해결해 나가는 팀이 되었으면 좋겠다!