내일배움 본캠프

[내일배움 본캠프] 기초통계와 머신러닝

hyeon-ji 2026. 6. 17. 20:59

☆ To Do List ☆

  • 라이브세션 수강(11시, 7:30)
  • AI 진단퀴즈
  • 코드카타
  • 통계학 기초 1챕터
  • 머신러닝 기초 수강
  • 자소서 작성
  • TIL 작성 및 제출

🤖 에이타니

에이타니로 "시계열 데이터 분해와 패턴 해석" 부분의 새로운 퀴즈를 풀려고 도전했다가, 하나도 모르겠어서 바로 나와버렸다. 그래서 그 전에 오답률이 높았던 회귀분석 리뷰를 하기로 했다.

 

다중선형회귀

- 기울기(계수, coefficient0 각 '독립변수 가 종속변수에 얼마나 큰 영향을 미치는가"를 보여주는 값이다. 다중 회귀에서는 하나의 스칼라 값으로 저장되지 않고, 독립변수가 3개이면 기울기도 3개다. 이들을 배열 형태로 저장된다.

계수(기울기) --> 각 독립변수의 영향력 (독립변수 개수만큼)

절편 --> 기준점 1개

성능 지표 --> 모델이 얼마나 잘 작동하는지 (1개, 따로 구해야 함)


🔐 CodeKata

def solution(arr, divisor):
    answer = []
    for num in arr:
        if num % divisor == 0:
            answer.append(num)
    
    if not answer:
        return [-1]
    else:
        answer.sort()
        return answer

solution([5, 9, 7, 10], 5)
'''
결과
[5, 10]
'''

📊기초통계

오늘 진행한 기초 통계 학습에서는 딱히 어려운 부분이 없었다.

추론 통계는 ' 가설 검정, 신뢰구간 ' 등을 말하고, 기술 통계는 우리가 흔히 알고 있는 ' 평균값, 중앙값, 최빈값, 분산, 표준편차 ' 등이 이에 해당한다.

추론 통계는 ' 표본 ' 데이터를 활용해서 ' 전체 '에 대해 ' 추론 '하고 ' 검증 '하는 것을 의미한다. ex) ANOVA, 회귀분석, 카이제곱...

기술 통계는 데이터를 ' 계산 '하고, ' 요약·설명 '하는 것을 의미한다. ex) 최댓값, 최솟값, 평균, 분산, 표준편차, 히스토그램, 박스플롯...

 

 

데이터 분석이란?

정답을 맞히는 것이 아니라 데이터로 가능성을 하나씩 제거하며 판단의 범위를 좁혀가는 과정이다.

통계는 이러한 과정을 객관적으로 수행할 수 있도록 돕는 도구이며, 분석가의 편향이 개입되지 않고 누구나 동일한 결과를 재현할 수 있는 분석이 좋은 분석이다.

 

 

변수(데이터) 종류

1. 수치형 : 사칙연산이 가능한 데이터

  • 연속형 : 측정하는 값 ex) 키, 몸무게
  • 정수형 : 셀 수 있는 값 ex) 불량품 개수

 

2. 범주형 : 범주로 나뉘어지는 데이터

  • 명목 변수 : 순위가 없는 데이터 ex) 남성, 여성
  • 서수 변수 : 순위가 있는 데이터 ex) 학점 A, B, C, D, F

 

🖥️ 머신러닝

기계학습의 3분류

  지도학습 비지도학습 강화학습
학습 방식 문제와 답(label)을 주고 모델을 학습시킨 후, 문제에 대한 답을 예측하는 방식 답(label)을 사전에 지정하지 않은 데이터로부터 특정 패턴을 찾아내는 방식 주어진 상태(state)에서 보상(reward)이 최대인 행동(action)을 찾아가는 방식
특징 학습데이터 확보 필수, 목표값(label) 필수 학습 데이터 확보 필수, 목표값(label) 불필요 학습 데이터 확보 불필요, 상태, 행동, 보상에 대한 실험환경 필요
세부 유형 회귀, 분류 군집화, 차원축소 가치 기반 기법, 정책 기반 기법
제조분석예시 공정기반 불량패턴 분류, 수요 예측 생산공정 군집화, 장비 이상상황 감지 생산일정계획 수립, 물류로봇 이동경로

 

지도학습과 비지도학습의 알고리즘

 

지도학습

  • 분류 > Decision Tree, Logistic Regression, Naive Bayes Classifier, Support Vector, Neural Network, Random Forest
  • 회귀 > Regression, Generalized Linear Model, k-Nearest Neighbors(k-NN), Neural Network, Time-Series Analysis

 

비지도학습

  • 군집화 : k-Means, Hierarchical Clusteringm Density-based Clustering, Model-based Clistering
  • 연관 분석 & 차원 축소 : Association Rule Mining, Sequential Rule Mining, Causality Analysis

새로운 조로 편성되고, 새로운 학습 주차가 시작되면서 많이 정신없었던 것 같다. 통계 기초를 학습할 때까지만 해도 이미 다 알고 있는 내용이고~ 그렇게 어렵지 않네~ 라는 생각을 하면서 편안하게 듣고 있었는데,,

머신러닝 강의를 들으면서 인사이 찌풀어졌다.

그래서 그게 뭔데..??

오늘 처음 배우면서 약간 훑는다는 느낌으로 들었다.

내일부터 모르는거 차근차근 알아보면서 들어야겠다!