내일배움 본캠프

[내일배움 본캠프] 기술통계

hyeon-ji 2026. 6. 18. 20:59

☆ To Do List ☆

  • AI진단퀴즈
  • 통계학 기초 챕터 2 수강
  • 머신러닝 기초 1-10까지 수강
  • 아티클 스터디
  • 라이브 세션(11:00, 19:30)
  • TIL 작성 및 제출

🤖 에이타니

● 시계열 데이터 분해와 패턴 해석

  • 원본 데이터 : 전반적으로 상승하는 패턴을 보이며, 매년 여름에 높고 겨울에 낮은 규칙적 변동이 관찰됨
  • 추세 성분 : 완만하게 상승하는 곡선 형태
  • 계절성 성분 : 12개월 주기로 동일한 패턴이 반복됨
  • 잔차 성분 : 0을 중심으로 불규칙하게 분포하나, 특정 시점에 큰 음수 값이 관찰됨

○ 위 데이터 해석

  • 원본 데이터에서 상승하는 패턴을 보임을 알 수 있고, 추세 성분이 완만하게 상승하는 곡선 형태임을 봤을 때 해당 데이터는 장기적으로 증가 추세를 보인다라고 볼 수 있다.
  • 계절성 성분이 12개월 주기로 동일한 패턴이 반복된다는 것을 보고 계절성 주기가 1년이라는 것을 알 수 있다.
  • 원본 데이터에서 매년 여름에 높고 겨울에 낮은 규칙적이 반복되는 값은 계절성 성분으로 설명할 수 있다.
  • 잔차가 특정 시점에 큰 음수 값으로 관찰되는 것은 이상치가 특정 시점이 크게 나타난다는 것으로 설명할 수 있다.

📊기초통계

 

● 기술통계

표본이 대표성을 가지는 것이 중요함

 

긴꼬리분포는 아무리 데이터가 많아도 정규분포가 될 수 없음 --> 파레토분포랑 관련있음

확률분포 이산확률분포 연속확률분포
확률변수 이산확률변수 연속확률변수
확률함수 확률질량함수 확률밀도함수
확률분포 베르누이분포, 이항분포, 포아송분포, 기하분포, 초기하분포 정규분포, 지수분포, t분포, F분포

 

● 이산확률분포

  • 베르누이분포 : 1번의 시행에서 성공확률이 p일 ㅈ때, 성공횟수 (실패 확률 = 1 - p)
  • 이항분포 : n번의 독립적 시행에서 각 시행의 성공확률이 p일 때, 성공횟수
  •               n이 충분히 크고, p가 0.5에 가까울 경우 정규분포에 근사할 수 있음
  • 기하분포 : 각 독립적 시행의 성공확률이 p일 때, 최초 성공까지의 필요한 시행 횟수
  • 포아송분포 : 단위시간(구간)동안 평균적으로 λ번 사건이 발생할 때, 실제로 단위시간동안 사건이 일어난 횟수

 

 연속확률분포

  • 균일분포 : a와 b사이에서 숫자(실수)가 동일한 확률로 분포됨
  • 지수분포 : 사건이 발생할 때까지 걸리는 시간
  • 정규분포 : 평균을 중심으로 좌우 대칭의 종 모양으로 분포됨
  • 카이제곱분포 : 표본분산이나 범주형 데이터의 적합도·독립성을 검정할 때 사용하는 분포
  • t분포 : 모집단의 분산을 모르고 표본 수가 적을 때 모집단 평균을 추정하거나 두 집단 평균 차이를 검정할 때 사용하는 분포
  • F분포 : 두 집단의 분산을 비교하거나 분산분석(ANOVA)을 수행할 때 사용하는 분포

 

 

🖥️ 머신러닝

MSE를 사용하는 이유는

여러가지 모델을 만들어 각각의 MSE값을 구해 모델 성능을 비교할 때 사용

다른 데이터셋에서 구한 MSE끼리 비교하는 것은 옳지 않음. 단위가 다르기 때문에 비교할 수 없음.

r2는 분야마다 적정 기준치가 있다....

 

 

TIL 작성할 시간이 부족하네요..

내일부터는 진짜 미리미리 쓰겠습니당..