<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0">
  <channel>
    <title>hyeon-ji 님의 블로그</title>
    <link>https://hyeon-ji.tistory.com/</link>
    <description>@스파르타 QAQC_6기
캠프에서의 활동 기록@</description>
    <language>ko</language>
    <pubDate>Tue, 30 Jun 2026 21:42:00 +0900</pubDate>
    <generator>TISTORY</generator>
    <ttl>100</ttl>
    <managingEditor>hyeon-ji</managingEditor>
    <item>
      <title>[내일배움 본캠프]개인과제 시작.</title>
      <link>https://hyeon-ji.tistory.com/47</link>
      <description>&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;☆ To Do List ☆&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;AI 진단퀴즈&lt;/li&gt;
&lt;li&gt;개인과제&lt;/li&gt;
&lt;li&gt;면접 준비&lt;/li&gt;
&lt;li&gt;TIL 작성 및 제출&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;font-family: AppleSDGothicNeo-Regular, 'Malgun Gothic', '맑은 고딕', dotum, 돋움, sans-serif;&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt; &lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;font-family: AppleSDGothicNeo-Regular, 'Malgun Gothic', '맑은 고딕', dotum, 돋움, sans-serif;&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt;&lt;span&gt;&amp;nbsp;에이타니&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;진도에 맞는 퀴즈를 다 풀기도 했고, 앞전에 틀렸던 문제들을 복습하며 기억을 되살리고자, 오늘부터 프로젝트가 끝날때까지는 복습을 진행하고자 한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #2e2f36; text-align: start;&quot;&gt;&lt;b&gt;● 추세(Trend)&lt;/b&gt; : 데이터가 장기적으로 보이는 전반적인 방향성이다. 예시로는 계속 증가하거나 감소하는 판매량의 흐름이 있다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #2e2f36; text-align: start;&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #2e2f36; text-align: start;&quot;&gt;●&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;계절성(Seasonality)&lt;/b&gt; : 일정한 주기로 반복되는 패턴이다. 예를 들면, 여름에 아이스크림 판매가 많아지고 겨울에 줄어드는 것처럼 시간대별로 규칙적으로 나타나는 변동을 계절성의 의미가 있다고 표현한다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #2e2f36; text-align: start;&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #2e2f36; text-align: start;&quot;&gt;●&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;잔차(Residual)&lt;/b&gt; : 추세와 계절성을 모두 제거한 후 남은 불규칙한 변동이다. 예측하기 어려운 일회성 사건이나 노이즈를 잔차라고 한다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;■ 두 가지 분해 모델&lt;/b&gt;&lt;b&gt;&lt;/b&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #2e2f36; text-align: start;&quot;&gt;●&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;가법 모델(Additive Moel)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffc1c8;&quot;&gt;시계열 = 추세 + 계절성 + 잔차&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;▶ 정의&amp;nbsp;&lt;/b&gt;: 계절 변동의 크기가 일정할 때 사용한다. 매년 같은 시기에 같은 양만큼 올라가고 내려가는 패턴이면 가법 모델이 적합하다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;b&gt;▶&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/b&gt;파이썬 코드&lt;/b&gt; : &lt;span style=&quot;background-color: #c0d1e7;&quot;&gt;seasonnal_decompose(..., model = 'additive')&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #2e2f36; text-align: start;&quot;&gt;●&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;승법 모델(Multiplicative Model)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffc1c8;&quot;&gt;시계열 = 추세 x 계절성 x 잔차&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;▶ 정의&lt;/b&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;: 계절 변동의 크기가 추세에 비례할 때 사용한다.&amp;nbsp;추세가 올라갈수록 계절 변동도 함께 커지는 패턴이다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;b&gt;▶&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/b&gt;파이썬 코드&lt;/b&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;:&lt;span&gt; &lt;span style=&quot;background-color: #c0d1e7; color: #333333; text-align: start;&quot;&gt;seasonnal_decompose(..., &lt;span style=&quot;background-color: #c0d1e7; color: #333333; text-align: start;&quot;&gt;model = 'muliplicative'&lt;/span&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt;  개인과제&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;면접 날짜랑 과제 제출일이랑 딱 겹쳐버려서..&lt;br /&gt;과제를 풀기는 했는데,, 많이 못 풀었다..&lt;br /&gt;면접 준비 먼저하고, 최대한 풀어서 제출일에 제출할 수 있도록 노력해봐야겠다..!&lt;/p&gt;</description>
      <category>내일배움 본캠프</category>
      <category>Til</category>
      <category>가법 모델</category>
      <category>개인과제</category>
      <category>계절성</category>
      <category>머신러닝</category>
      <category>승법 모델</category>
      <category>시계열</category>
      <category>잔차</category>
      <category>추세</category>
      <author>hyeon-ji</author>
      <guid isPermaLink="true">https://hyeon-ji.tistory.com/47</guid>
      <comments>https://hyeon-ji.tistory.com/47#entry47comment</comments>
      <pubDate>Tue, 30 Jun 2026 20:00:19 +0900</pubDate>
    </item>
    <item>
      <title>[내일배움 본캠프]K-Means 군집화란? 비지도학습 핵심 개념 정리!</title>
      <link>https://hyeon-ji.tistory.com/46</link>
      <description>&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;☆ To Do List ☆&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;AI진단퀴즈&lt;/li&gt;
&lt;li&gt;머신러닝 심화 챕터 3, 4수강&lt;/li&gt;
&lt;li&gt;개인과제 라이브세션 19:30~&lt;/li&gt;
&lt;li&gt;면접준비&lt;/li&gt;
&lt;li&gt;TIL작성 및 제출&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;font-family: AppleSDGothicNeo-Regular, 'Malgun Gothic', '맑은 고딕', dotum, 돋움, sans-serif;&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt; &lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;font-family: AppleSDGothicNeo-Regular, 'Malgun Gothic', '맑은 고딕', dotum, 돋움, sans-serif;&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt;&lt;span&gt;&amp;nbsp;에이타니&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;아 아침에 잠이 덜 깻나,, 선형그래프를 막대그래프라고 착각하고 문제를 풀었어요,,&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;그냥 A번 보고 완전 맞는말이네~ 하고 골랐는데.. 틀렸어요..&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1516&quot; data-origin-height=&quot;590&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/5KVew/dJMcahrs76C/2H3RlAsjWJ9NK85JCUrpMk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/5KVew/dJMcahrs76C/2H3RlAsjWJ9NK85JCUrpMk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/5KVew/dJMcahrs76C/2H3RlAsjWJ9NK85JCUrpMk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2F5KVew%2FdJMcahrs76C%2F2H3RlAsjWJ9NK85JCUrpMk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;634&quot; height=&quot;590&quot; data-origin-width=&quot;1516&quot; data-origin-height=&quot;590&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #2e2f36; text-align: start;&quot;&gt;선형 그래프는 시간의 흐름에 따른 데이터의 변화와 추세를 파악하는 데 가장 적합한 시각화 방법으로 'B'가 정답입니다..~&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt;&lt;span&gt; ️&lt;/span&gt;&amp;nbsp;머신러닝&lt;/span&gt;&lt;/h4&gt;
&lt;h3 data-end=&quot;65&quot; data-start=&quot;56&quot; data-ke-size=&quot;size23&quot;&gt;&lt;b&gt;머신러닝 종류&lt;/b&gt;&lt;/h3&gt;
&lt;p data-end=&quot;148&quot; data-start=&quot;67&quot; data-ke-size=&quot;size16&quot;&gt;머신러닝은 크게 &lt;b&gt;지도학습(Supervised Learning)&lt;/b&gt;과 &lt;b&gt;비지도학습(Unsupervised Learning)&lt;/b&gt;으로 나뉜다.&lt;/p&gt;
&lt;h4 data-end=&quot;181&quot; data-start=&quot;150&quot; data-ke-size=&quot;size20&quot;&gt;&amp;nbsp;&lt;/h4&gt;
&lt;h4 data-end=&quot;181&quot; data-start=&quot;150&quot; data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;● 지도학습(Supervised Learning)&lt;/b&gt;&lt;/h4&gt;
&lt;p data-end=&quot;265&quot; data-start=&quot;183&quot; data-ke-size=&quot;size16&quot;&gt;지도학습은 &lt;b&gt;입력 데이터(X)와 정답(Y)이 함께 주어진 상태에서 학습&lt;/b&gt;하는 방법이다. 학습한 모델을 이용해 새로운 데이터의 결과를 예측한다.&lt;/p&gt;
&lt;p data-end=&quot;265&quot; data-start=&quot;183&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;274&quot; data-start=&quot;267&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #c0d1e7;&quot;&gt;대표적인 예시로는 '회귀'와 '분류'가 있다.&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-end=&quot;353&quot; data-start=&quot;319&quot; data-ke-size=&quot;size23&quot;&gt;&amp;nbsp;&lt;/h3&gt;
&lt;h4 data-end=&quot;353&quot; data-start=&quot;319&quot; data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;● 비지도학습(Unsupervised Learning)&lt;/b&gt;&lt;/h4&gt;
&lt;p data-end=&quot;408&quot; data-start=&quot;355&quot; data-ke-size=&quot;size16&quot;&gt;비지도학습은 &lt;b&gt;정답(Y) 없이 데이터의 특성이나 유사성을 기반으로 그룹을 찾는 방법&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;420&quot; data-start=&quot;410&quot; data-ke-size=&quot;size16&quot;&gt;대표적인 활용 예시로는 '고객 세분화', '구매 패턴 분석', '이상 데이터 탐지'가 있다.&lt;/p&gt;
&lt;h1 data-end=&quot;502&quot; data-start=&quot;482&quot;&gt;&amp;nbsp;&lt;/h1&gt;
&lt;h3 data-end=&quot;502&quot; data-start=&quot;482&quot; data-ke-size=&quot;size23&quot;&gt;&lt;b&gt;K-Means Clustering&lt;/b&gt;&lt;/h3&gt;
&lt;p data-end=&quot;548&quot; data-start=&quot;504&quot; data-ke-size=&quot;size16&quot;&gt;K-Means는 가장 대표적인 &lt;b&gt;군집화(Clustering)&lt;/b&gt; 알고리즘이다.&lt;/p&gt;
&lt;p data-end=&quot;625&quot; data-start=&quot;550&quot; data-ke-size=&quot;size16&quot;&gt;비슷한 특성을 가진 데이터를 K개의 그룹으로 나누며, 각 군집의 중심(Centroid)을 반복적으로 이동시키면서 최적의 군집을 만든다.&lt;/p&gt;
&lt;p data-end=&quot;644&quot; data-start=&quot;627&quot; data-ke-size=&quot;size18&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;644&quot; data-start=&quot;627&quot; data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;▶ K-Means 수행 과정&lt;/b&gt;&lt;/p&gt;
&lt;ol style=&quot;list-style-type: decimal;&quot; data-end=&quot;730&quot; data-start=&quot;646&quot; data-ke-list-type=&quot;decimal&quot;&gt;
&lt;li data-end=&quot;660&quot; data-start=&quot;646&quot;&gt;군집 개수(K) 설정&lt;/li&gt;
&lt;li data-end=&quot;673&quot; data-start=&quot;661&quot;&gt;초기 중심점 선택&lt;/li&gt;
&lt;li data-end=&quot;695&quot; data-start=&quot;674&quot;&gt;가장 가까운 중심으로 데이터 할당&lt;/li&gt;
&lt;li data-end=&quot;709&quot; data-start=&quot;696&quot;&gt;새로운 중심점 계산&lt;/li&gt;
&lt;li data-end=&quot;730&quot; data-start=&quot;710&quot;&gt;중심이 변하지 않을 때까지 반복&lt;/li&gt;
&lt;/ol&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;743&quot; data-start=&quot;737&quot; data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;▶ 장점&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;787&quot; data-start=&quot;745&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;757&quot; data-start=&quot;745&quot;&gt;구현이 쉽고 직관적&lt;/li&gt;
&lt;li data-end=&quot;770&quot; data-start=&quot;758&quot;&gt;군집화 속도가 빠름&lt;/li&gt;
&lt;li data-end=&quot;787&quot; data-start=&quot;771&quot;&gt;다양한 분야에서 활용 가능&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;795&quot; data-start=&quot;789&quot; data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;▶ 단점&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;860&quot; data-start=&quot;797&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;812&quot; data-start=&quot;797&quot;&gt;K값을 직접 지정해야 함&lt;/li&gt;
&lt;li data-end=&quot;822&quot; data-start=&quot;813&quot;&gt;이상치에 민감&lt;/li&gt;
&lt;li data-end=&quot;860&quot; data-start=&quot;823&quot;&gt;거리 기반 알고리즘이라 차원이 많아질수록 성능이 저하될 수 있음&lt;/li&gt;
&lt;/ul&gt;
&lt;h1 data-end=&quot;901&quot; data-start=&quot;867&quot;&gt;&amp;nbsp;&lt;/h1&gt;
&lt;h3 data-end=&quot;901&quot; data-start=&quot;867&quot; data-ke-size=&quot;size23&quot;&gt;&lt;b&gt;군집 평가 - 실루엣 계수(Silhouette Score)&lt;/b&gt;&lt;/h3&gt;
&lt;p data-end=&quot;969&quot; data-start=&quot;903&quot; data-ke-size=&quot;size16&quot;&gt;비지도학습은 정답이 없기 때문에 &lt;b&gt;실루엣 계수(Silhouette Score)&lt;/b&gt;를 이용해 군집화 품질을 평가한다.&lt;/p&gt;
&lt;p data-end=&quot;977&quot; data-start=&quot;971&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;977&quot; data-start=&quot;971&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;▶ &lt;/b&gt;해석&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1055&quot; data-start=&quot;979&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1003&quot; data-start=&quot;979&quot;&gt;&lt;b&gt;1에 가까울수록&lt;/b&gt; 군집이 잘 분리됨&lt;/li&gt;
&lt;li data-end=&quot;1031&quot; data-start=&quot;1004&quot;&gt;&lt;b&gt;0에 가까울수록&lt;/b&gt; 군집 간 경계가 모호함&lt;/li&gt;
&lt;li data-end=&quot;1055&quot; data-start=&quot;1032&quot;&gt;&lt;b&gt;-1에 가까울수록&lt;/b&gt; 잘못 군집화됨&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1099&quot; data-start=&quot;1057&quot; data-ke-size=&quot;size16&quot;&gt;좋은 군집화일수록 &lt;b&gt;같은 군집은 가깝고 다른 군집은 멀리 떨어져 있다.&lt;/b&gt;&lt;/p&gt;
&lt;h1 data-end=&quot;1140&quot; data-start=&quot;1106&quot;&gt;&amp;nbsp;&lt;/h1&gt;
&lt;h3 data-end=&quot;1140&quot; data-start=&quot;1106&quot; data-ke-size=&quot;size23&quot;&gt;&lt;b&gt;고객 세그멘테이션(Customer Segmentation)&lt;/b&gt;&lt;/h3&gt;
&lt;p data-end=&quot;1184&quot; data-start=&quot;1142&quot; data-ke-size=&quot;size16&quot;&gt;고객의 구매 패턴이나 특성을 기반으로 고객을 여러 그룹으로 나누는 기법이다.&lt;/p&gt;
&lt;p data-end=&quot;1212&quot; data-start=&quot;1186&quot; data-ke-size=&quot;size16&quot;&gt;대표적으로 &lt;b&gt;RFM 분석&lt;/b&gt;이 많이 사용된다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1294&quot; data-start=&quot;1214&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1239&quot; data-start=&quot;1214&quot;&gt;&lt;b&gt;Recency(R)&lt;/b&gt; : 최근 구매일&lt;/li&gt;
&lt;li data-end=&quot;1266&quot; data-start=&quot;1240&quot;&gt;&lt;b&gt;Frequency(F)&lt;/b&gt; : 구매 횟수&lt;/li&gt;
&lt;li data-end=&quot;1294&quot; data-start=&quot;1267&quot;&gt;&lt;b&gt;Monetary(M)&lt;/b&gt; : 총 구매 금액&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1327&quot; data-start=&quot;1296&quot; data-ke-size=&quot;size16&quot;&gt;이를 활용해 고객 맞춤형 마케팅 전략을 수립할 수 있다.&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style3&quot; /&gt;
&lt;h3 data-end=&quot;1349&quot; data-start=&quot;1334&quot; data-ke-size=&quot;size23&quot;&gt;&lt;b&gt;머신러닝과 딥러닝의 차이&lt;/b&gt;&lt;/h3&gt;
&lt;p data-end=&quot;1431&quot; data-start=&quot;1351&quot; data-ke-size=&quot;size16&quot;&gt;딥러닝은 머신러닝의 한 분야로, &lt;b&gt;인공신경망(Artificial Neural Network)&lt;/b&gt;을 이용하여 복잡한 패턴을 학습하는 기술이다.&lt;/p&gt;
&lt;div&gt;&lt;br /&gt;
&lt;table style=&quot;border-collapse: collapse; width: 45.5814%; height: 169px;&quot; border=&quot;1&quot; data-end=&quot;1592&quot; data-start=&quot;1433&quot; data-ke-align=&quot;alignLeft&quot; data-ke-style=&quot;style12&quot;&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td style=&quot;text-align: center;&quot;&gt;머신러닝&lt;/td&gt;
&lt;td style=&quot;text-align: center;&quot;&gt;딥러닝&lt;/td&gt;
&lt;/tr&gt;
&lt;tr data-end=&quot;1497&quot; data-start=&quot;1470&quot;&gt;
&lt;td style=&quot;text-align: center;&quot; data-col-size=&quot;sm&quot; data-end=&quot;1482&quot; data-start=&quot;1470&quot;&gt;통계적 패턴 학습&lt;/td&gt;
&lt;td style=&quot;text-align: center;&quot; data-col-size=&quot;sm&quot; data-end=&quot;1497&quot; data-start=&quot;1482&quot;&gt;인공신경망 기반 학습&lt;/td&gt;
&lt;/tr&gt;
&lt;tr data-end=&quot;1532&quot; data-start=&quot;1498&quot;&gt;
&lt;td style=&quot;text-align: center;&quot; data-col-size=&quot;sm&quot; data-end=&quot;1518&quot; data-start=&quot;1498&quot;&gt;비교적 적은 데이터로 학습 가능&lt;/td&gt;
&lt;td style=&quot;text-align: center;&quot; data-col-size=&quot;sm&quot; data-end=&quot;1532&quot; data-start=&quot;1518&quot;&gt;많은 데이터가 필요&lt;/td&gt;
&lt;/tr&gt;
&lt;tr data-end=&quot;1569&quot; data-start=&quot;1533&quot;&gt;
&lt;td style=&quot;text-align: center;&quot; data-col-size=&quot;sm&quot; data-end=&quot;1554&quot; data-start=&quot;1533&quot;&gt;특징(Feature)을 직접 추출&lt;/td&gt;
&lt;td style=&quot;text-align: center;&quot; data-col-size=&quot;sm&quot; data-end=&quot;1569&quot; data-start=&quot;1554&quot;&gt;특징을 자동으로 학습&lt;/td&gt;
&lt;/tr&gt;
&lt;tr data-end=&quot;1592&quot; data-start=&quot;1570&quot;&gt;
&lt;td style=&quot;text-align: center;&quot; data-col-size=&quot;sm&quot; data-end=&quot;1581&quot; data-start=&quot;1570&quot;&gt;해석이 쉬운 편&lt;/td&gt;
&lt;td style=&quot;text-align: center;&quot; data-end=&quot;1592&quot; data-start=&quot;1581&quot; data-col-size=&quot;sm&quot;&gt;해석이 어려움&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;/div&gt;
&lt;h1 data-end=&quot;1633&quot; data-start=&quot;1599&quot;&gt;&amp;nbsp;&lt;/h1&gt;
&lt;h3 data-end=&quot;1633&quot; data-start=&quot;1599&quot; data-ke-size=&quot;size23&quot;&gt;&lt;b&gt;인공신경망(Artificial Neural Network)&lt;/b&gt;&lt;/h3&gt;
&lt;p data-end=&quot;1664&quot; data-start=&quot;1635&quot; data-ke-size=&quot;size16&quot;&gt;인공신경망은 인간의 신경세포 구조를 모방한 모델이다.&lt;/p&gt;
&lt;p data-end=&quot;1680&quot; data-start=&quot;1666&quot; data-ke-size=&quot;size16&quot;&gt;기본 구조는 다음과 같다.&lt;/p&gt;
&lt;p data-end=&quot;1751&quot; data-start=&quot;1682&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;입력층(Input Layer)&lt;/b&gt; &amp;rarr; &lt;b&gt;은닉층(Hidden Layer)&lt;/b&gt; &amp;rarr; &lt;b&gt;출력층(Output Layer)&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;1797&quot; data-start=&quot;1753&quot; data-ke-size=&quot;size16&quot;&gt;은닉층이 많아질수록 복잡한 패턴을 학습할 수 있으며, 이것이 딥러닝의 핵심이다.&lt;/p&gt;
&lt;h1 data-end=&quot;1829&quot; data-start=&quot;1804&quot;&gt;&amp;nbsp;&lt;/h1&gt;
&lt;h3 data-end=&quot;1829&quot; data-start=&quot;1804&quot; data-ke-size=&quot;size23&quot;&gt;&lt;b&gt;경사하강법(Gradient Descent)&lt;/b&gt;&lt;/h3&gt;
&lt;p data-end=&quot;1901&quot; data-start=&quot;1831&quot; data-ke-size=&quot;size16&quot;&gt;경사하강법은 &lt;b&gt;손실 함수(Loss Function)를 최소화하도록 가중치를 반복적으로 업데이트하는 최적화 알고리즘&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;1958&quot; data-start=&quot;1903&quot; data-ke-size=&quot;size16&quot;&gt;쉽게 말해 &lt;b&gt;오차가 가장 작은 방향으로 가중치를 계속 수정하면서 최적의 모델을 찾는 과정&lt;/b&gt;이다.&lt;/p&gt;
&lt;h1 data-end=&quot;1994&quot; data-start=&quot;1965&quot;&gt;&amp;nbsp;&lt;/h1&gt;
&lt;h3 data-end=&quot;1994&quot; data-start=&quot;1965&quot; data-ke-size=&quot;size23&quot;&gt;&lt;b&gt;활성화 함수(Activation Function)&lt;/b&gt;&lt;/h3&gt;
&lt;p data-end=&quot;2066&quot; data-start=&quot;1996&quot; data-ke-size=&quot;size16&quot;&gt;활성화 함수는 신경망에 &lt;b&gt;비선형성(Non-linearity)&lt;/b&gt;을 추가하여 복잡한 문제를 해결할 수 있도록 만든 함수이다.&lt;/p&gt;
&lt;p data-end=&quot;2079&quot; data-start=&quot;2068&quot; data-ke-size=&quot;size16&quot;&gt;대표적인 활성화 함수&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2106&quot; data-start=&quot;2080&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2089&quot; data-start=&quot;2080&quot;&gt;Sigmoid&lt;/li&gt;
&lt;li data-end=&quot;2096&quot; data-start=&quot;2090&quot;&gt;ReLU&lt;/li&gt;
&lt;li data-end=&quot;2106&quot; data-start=&quot;2097&quot;&gt;Softmax&lt;/li&gt;
&lt;/ul&gt;
&lt;h1 data-end=&quot;2140&quot; data-start=&quot;2113&quot;&gt;&amp;nbsp;&lt;/h1&gt;
&lt;h4 data-end=&quot;2140&quot; data-start=&quot;2113&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #8a3db6;&quot;&gt;&lt;b&gt;Epoch &amp;middot; Batch &amp;middot; Iteration&lt;/b&gt;&lt;/span&gt;&lt;/h4&gt;
&lt;p data-end=&quot;2161&quot; data-start=&quot;2142&quot; data-ke-size=&quot;size16&quot;&gt;딥러닝에서 자주 사용하는 용어이다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2265&quot; data-start=&quot;2163&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2196&quot; data-start=&quot;2163&quot;&gt;&lt;b&gt;Epoch&lt;/b&gt; : 전체 데이터를 한 번 학습하는 과정&lt;/li&gt;
&lt;li data-end=&quot;2228&quot; data-start=&quot;2197&quot;&gt;&lt;b&gt;Batch&lt;/b&gt; : 데이터를 일정 크기로 나눈 묶음&lt;/li&gt;
&lt;li data-end=&quot;2265&quot; data-start=&quot;2229&quot;&gt;&lt;b&gt;Iteration&lt;/b&gt; : 하나의 Batch를 학습하는 횟수&lt;/li&gt;
&lt;/ul&gt;
&lt;h1 data-end=&quot;2358&quot; data-start=&quot;2339&quot;&gt;&amp;nbsp;&lt;/h1&gt;
&lt;h4 data-end=&quot;2358&quot; data-start=&quot;2339&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #8a3db6;&quot;&gt;&lt;b&gt;TensorFlow와 Keras&lt;/b&gt;&lt;/span&gt;&lt;/h4&gt;
&lt;p data-end=&quot;2425&quot; data-start=&quot;2360&quot; data-ke-size=&quot;size16&quot;&gt;TensorFlow는 대표적인 딥러닝 프레임워크이며, Keras는 TensorFlow에서 제공하는 고수준 API이다.&lt;/p&gt;
&lt;p data-end=&quot;2432&quot; data-start=&quot;2427&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;2432&quot; data-start=&quot;2427&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;▶&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/b&gt;주요 함수&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2584&quot; data-start=&quot;2434&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2458&quot; data-start=&quot;2434&quot;&gt;Sequential() : 모델 생성&lt;/li&gt;
&lt;li data-end=&quot;2482&quot; data-start=&quot;2459&quot;&gt;Dense() : 완전 연결층 추가&lt;/li&gt;
&lt;li data-end=&quot;2516&quot; data-start=&quot;2483&quot;&gt;compile() : 손실 함수 및 최적화 방법 설정&lt;/li&gt;
&lt;li data-end=&quot;2534&quot; data-start=&quot;2517&quot;&gt;fit() : 모델 학습&lt;/li&gt;
&lt;li data-end=&quot;2557&quot; data-start=&quot;2535&quot;&gt;evaluate() : 모델 평가&lt;/li&gt;
&lt;li data-end=&quot;2584&quot; data-start=&quot;2558&quot;&gt;predict() : 새로운 데이터 예측&lt;/li&gt;
&lt;/ul&gt;
&lt;h1 data-end=&quot;2602&quot; data-start=&quot;2591&quot;&gt;&amp;nbsp;&lt;/h1&gt;
&lt;h3 data-end=&quot;2602&quot; data-start=&quot;2591&quot; data-ke-size=&quot;size23&quot;&gt;&lt;b&gt;딥러닝 활용 분야&lt;/b&gt;&lt;/h3&gt;
&lt;p data-end=&quot;2619&quot; data-start=&quot;2604&quot; data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;▶ 자연어 처리(NLP)&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;2645&quot; data-start=&quot;2621&quot; data-ke-size=&quot;size16&quot;&gt;텍스트 데이터를 이해하고 생성하는 기술이다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2683&quot; data-start=&quot;2653&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2662&quot; data-start=&quot;2653&quot;&gt;ChatGPT&lt;/li&gt;
&lt;li data-end=&quot;2667&quot; data-start=&quot;2663&quot;&gt;번역&lt;/li&gt;
&lt;li data-end=&quot;2675&quot; data-start=&quot;2668&quot;&gt;감정 분석&lt;/li&gt;
&lt;li data-end=&quot;2683&quot; data-start=&quot;2676&quot;&gt;문서 요약&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 data-end=&quot;2705&quot; data-start=&quot;2690&quot; data-ke-size=&quot;size23&quot;&gt;&amp;nbsp;&lt;/h3&gt;
&lt;p data-end=&quot;2705&quot; data-start=&quot;2690&quot; data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;▶&lt;span&gt;&amp;nbsp;&lt;/span&gt;이미지 처리(CNN)&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;2742&quot; data-start=&quot;2707&quot; data-ke-size=&quot;size16&quot;&gt;이미지의 특징을 자동으로 학습하여 분류하거나 생성하는 기술이다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2784&quot; data-start=&quot;2750&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2757&quot; data-start=&quot;2750&quot;&gt;얼굴 인식&lt;/li&gt;
&lt;li data-end=&quot;2768&quot; data-start=&quot;2758&quot;&gt;의료 영상 분석&lt;/li&gt;
&lt;li data-end=&quot;2775&quot; data-start=&quot;2769&quot;&gt;자율주행&lt;/li&gt;
&lt;li data-end=&quot;2784&quot; data-start=&quot;2776&quot;&gt;이미지 생성&lt;/li&gt;
&lt;/ul&gt;
&lt;h1 data-end=&quot;2803&quot; data-start=&quot;2791&quot;&gt;&amp;nbsp;&lt;/h1&gt;
&lt;h2 data-end=&quot;2803&quot; data-start=&quot;2791&quot; data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #1a5490;&quot;&gt;&lt;b&gt;&amp;nbsp; &amp;nbsp; &amp;lt; 머신러닝 핵심 정리 &amp;gt;&lt;/b&gt;&lt;/span&gt;&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3108&quot; data-start=&quot;2805&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2835&quot; data-start=&quot;2805&quot;&gt;&lt;b&gt;지도학습&lt;/b&gt; : 정답(Y)이 있는 데이터를 학습&lt;/li&gt;
&lt;li data-end=&quot;2867&quot; data-start=&quot;2836&quot;&gt;&lt;b&gt;비지도학습&lt;/b&gt; : 정답 없이 데이터의 패턴을 학습&lt;/li&gt;
&lt;li data-end=&quot;2897&quot; data-start=&quot;2868&quot;&gt;&lt;b&gt;K-Means&lt;/b&gt; : 대표적인 군집화 알고리즘&lt;/li&gt;
&lt;li data-end=&quot;2925&quot; data-start=&quot;2898&quot;&gt;&lt;b&gt;실루엣 계수&lt;/b&gt; : 군집화 성능 평가 지표&lt;/li&gt;
&lt;li data-end=&quot;2952&quot; data-start=&quot;2926&quot;&gt;&lt;b&gt;딥러닝&lt;/b&gt; : 인공신경망 기반의 머신러닝&lt;/li&gt;
&lt;li data-end=&quot;2986&quot; data-start=&quot;2953&quot;&gt;&lt;b&gt;경사하강법&lt;/b&gt; : 손실 함수를 최소화하는 최적화 방법&lt;/li&gt;
&lt;li data-end=&quot;3015&quot; data-start=&quot;2987&quot;&gt;&lt;b&gt;활성화 함수&lt;/b&gt; : 신경망에 비선형성을 부여&lt;/li&gt;
&lt;li data-end=&quot;3055&quot; data-start=&quot;3016&quot;&gt;&lt;b&gt;TensorFlow/Keras&lt;/b&gt; : 대표적인 딥러닝 프레임워크&lt;/li&gt;
&lt;li data-end=&quot;3108&quot; data-start=&quot;3056&quot;&gt;&lt;b&gt;딥러닝 활용 분야&lt;/b&gt; : 자연어 처리(NLP), 이미지 처리(CNN), 생성형 AI 등&lt;/li&gt;
&lt;/ul&gt;</description>
      <category>내일배움 본캠프</category>
      <category>Til</category>
      <category>경사하강법</category>
      <category>군집화</category>
      <category>딥러닝</category>
      <category>머신러닝</category>
      <category>비지도학습</category>
      <category>인공신경망</category>
      <category>지도학습</category>
      <category>활성화함수</category>
      <author>hyeon-ji</author>
      <guid isPermaLink="true">https://hyeon-ji.tistory.com/46</guid>
      <comments>https://hyeon-ji.tistory.com/46#entry46comment</comments>
      <pubDate>Mon, 29 Jun 2026 21:02:05 +0900</pubDate>
    </item>
    <item>
      <title>[내일배움 본캠프]머신러닝 알고리즘 종류와 특징</title>
      <link>https://hyeon-ji.tistory.com/45</link>
      <description>&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;☆ To Do List ☆&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;AI진단퀴즈&lt;/li&gt;
&lt;li&gt;머신러닝 심화 챕터 2수강&lt;/li&gt;
&lt;li&gt;자소서 작성&lt;/li&gt;
&lt;li&gt;TIL 작성 및 제출&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;font-family: AppleSDGothicNeo-Regular, 'Malgun Gothic', '맑은 고딕', dotum, 돋움, sans-serif;&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt; &lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;font-family: AppleSDGothicNeo-Regular, 'Malgun Gothic', '맑은 고딕', dotum, 돋움, sans-serif;&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt;&lt;span&gt;&amp;nbsp;에이타니&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/h4&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;&lt;span&gt;F-statistic과 p-value&lt;/span&gt;&lt;/b&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;&lt;span&gt;● F-statistic&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span&gt;F-statistic은 &lt;/span&gt;&lt;b&gt;&lt;span&gt;회귀모형 전체가 통계적으로 유의한지 평가하는 지표&lt;/span&gt;&lt;/b&gt;&lt;span&gt;이다. 즉, 독립변수들이 종속변수를 설명하는 데 의미가 있는지를 확인하는 역할을 한다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span&gt;일반적으로 &lt;/span&gt;&lt;b&gt;&lt;span&gt;F-statistic 값이 클수록 모델의 설명력이 높을 가능성이 크며&lt;/span&gt;&lt;/b&gt;&lt;span&gt;, 함께 제공되는 p-value를 통해 최종적으로 유의성을 판단한다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;&lt;span&gt;● p-value&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span&gt;p-value는 &lt;/span&gt;&lt;b&gt;&lt;span&gt;귀무가설이 참이라는 가정하에 현재와 같거나 더 극단적인 결과가 나타날 확률&lt;/span&gt;&lt;/b&gt;&lt;span&gt;을 의미한다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span&gt;일반적으로 다음과 같이 해석한다.&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-spread=&quot;false&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;b&gt;&lt;span&gt;p-value &amp;lt; 0.05&lt;/span&gt;&lt;/b&gt;&lt;span&gt; : 통계적으로 유의하며, 귀무가설을 기각한다.&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;b&gt;&lt;span&gt;p-value &amp;ge; 0.05&lt;/span&gt;&lt;/b&gt;&lt;span&gt; : 통계적으로 유의하지 않으며, 귀무가설을 기각하지 않는다.&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span&gt;즉, &lt;/span&gt;&lt;b&gt;&lt;span&gt;p-value가 작을수록 현재 분석 결과가 우연히 발생했을 가능성이 낮다고 판단&lt;/span&gt;&lt;/b&gt;&lt;span&gt;한다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt;&lt;span&gt; ️&lt;/span&gt;&amp;nbsp;머신러닝&lt;/span&gt;&lt;/h4&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;b&gt;■ 의사결정나무(Decision Tree)&lt;/b&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;의사결정나무(Decision Tree)는 &lt;b&gt;데이터를 조건에 따라 반복적으로 분할하여 결과를 예측하는 알고리즘&lt;/b&gt;이다. 사람의 의사결정 과정처럼 나무(Tree) 형태로 분류가 이루어지며, 분류(Classification)와 회귀(Regression) 모두 사용할 수 있다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;● 의사결정나무의 특징&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;데이터를 조건에 따라 반복적으로 분할하여 예측&lt;/li&gt;
&lt;li&gt;데이터 스케일링이 필요하지 않음&lt;/li&gt;
&lt;li&gt;변수 중요도를 확인할 수 있음&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;● 장점&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;구조가 직관적이고 해석이 쉬움&lt;/li&gt;
&lt;li&gt;분류와 회귀 모두 적용 가능&lt;/li&gt;
&lt;li&gt;이상치의 영향을 비교적 적게 받음&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;● 단점&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;과적합(Overfitting)이 발생하기 쉬움&lt;/li&gt;
&lt;li&gt;데이터 변화에 따라 모델 구조가 크게 달라질 수 있음&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;▶ Python 함수&lt;/b&gt;&lt;/p&gt;
&lt;pre class=&quot;xl&quot;&gt;&lt;code&gt;from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import DecisionTreeRegressor
&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;b&gt;■&lt;span&gt;&amp;nbsp;&lt;/span&gt;랜덤포레스트(Random Forest)&lt;/b&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;랜덤포레스트(Random Forest)는 &lt;b&gt;여러 개의 의사결정나무를 학습시킨 뒤 결과를 종합하여 최종 예측을 수행하는 앙상블 알고리즘&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Bagging(Bootstrap Aggregating) 기법을 사용하여 서로 다른 데이터로 여러 개의 트리를 생성하고, 각 트리의 예측 결과를 종합하여 최종 결과를 결정한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;● Bagging(Bootstrap Aggregating)&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;b&gt;Bootstrapping&lt;/b&gt; : 데이터를 복원추출하여 여러 개의 학습 데이터를 생성&lt;/li&gt;
&lt;li&gt;&lt;b&gt;Aggregating&lt;/b&gt; : 여러 모델의 예측 결과를 종합하여 최종 결과를 결정&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;● 장점&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;과적합을 효과적으로 방지할 수 있음&lt;/li&gt;
&lt;li&gt;높은 예측 성능을 보임&lt;/li&gt;
&lt;li&gt;변수 중요도를 확인할 수 있음&lt;/li&gt;
&lt;li&gt;데이터 스케일링이 필요하지 않음&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;● 단점&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;모델 구조를 해석하기 어려움&lt;/li&gt;
&lt;li&gt;학습 시간과 메모리 사용량이 증가&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;▶ Python 함수&lt;/b&gt;&lt;/p&gt;
&lt;pre class=&quot;angelscript&quot;&gt;&lt;code&gt;from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import RandomForestRegressor
&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;b&gt;■&lt;span&gt;&amp;nbsp;&lt;/span&gt;K-최근접 이웃(K-Nearest Neighbor, KNN)&lt;/b&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;KNN은 &lt;b&gt;새로운 데이터와 가장 가까운 K개의 데이터를 찾은 후, 가장 많이 속한 클래스로 예측하는 거리 기반 알고리즘&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;데이터 간 거리를 계산하기 때문에 변수의 단위를 맞추기 위한 &lt;b&gt;표준화(Standardization)&lt;/b&gt; 과정이 필요하다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;● 장점&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;원리가 단순하고 이해하기 쉬움&lt;/li&gt;
&lt;li&gt;별도의 복잡한 학습 과정이 없음&lt;/li&gt;
&lt;li&gt;분류와 회귀 모두 가능&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;● 단점&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;데이터가 많을수록 예측 속도가 느려짐&lt;/li&gt;
&lt;li&gt;변수 스케일의 영향을 크게 받음&lt;/li&gt;
&lt;li&gt;차원이 높아질수록 성능이 저하될 수 있음&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;▶ Python 함수&lt;/b&gt;&lt;/p&gt;
&lt;pre class=&quot;angelscript&quot;&gt;&lt;code&gt;from sklearn.neighbors import KNeighborsClassifier
from sklearn.neighbors import KNeighborsRegressor
&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;b&gt;■&lt;span&gt;&amp;nbsp;&lt;/span&gt;하이퍼파라미터(Hyperparameter)&lt;/b&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;하이퍼파라미터(Hyperparameter)는 &lt;b&gt;모델을 학습하기 전에 사용자가 직접 설정하는 값&lt;/b&gt;으로, 모델의 구조와 성능에 영향을 미친다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;대표적인 예시는 다음과 같다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Decision Tree : max_depth&lt;/li&gt;
&lt;li&gt;Random Forest : n_estimators&lt;/li&gt;
&lt;li&gt;KNN : n_neighbors&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;적절한 하이퍼파라미터를 설정하면 모델의 예측 성능을 더욱 향상시킬 수 있다.&lt;/p&gt;
&lt;h1&gt;&amp;nbsp;&lt;/h1&gt;
&lt;h3 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;b&gt;■ 부스팅(Boosting)&lt;/b&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;부스팅(Boosting)은 &lt;b&gt;여러 개의 약한 학습기(Weak Learner)를 순차적으로 학습시키면서 이전 모델의 오차를 보완하는 앙상블 기법&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;학습을 반복할수록 잘못 예측한 데이터에 더 큰 가중치를 부여하여 모델의 성능을 개선한다.&lt;/p&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&amp;nbsp;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;● Gradient Boosting Machine(GBM)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Gradient Boosting은 이전 모델의 오차를 &lt;b&gt;경사하강법(Gradient Descent)&lt;/b&gt;을 이용하여 순차적으로 줄여나가는 부스팅 알고리즘이다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;▶ 특징&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;이전 모델의 오차를 반복적으로 보완&lt;/li&gt;
&lt;li&gt;높은 예측 성능&lt;/li&gt;
&lt;li&gt;학습 속도가 비교적 느림&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;▶ Python 함수&lt;/b&gt;&lt;/p&gt;
&lt;pre class=&quot;angelscript&quot;&gt;&lt;code&gt;from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import GradientBoostingRegressor
&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;● XGBoost&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;XGBoost는 Gradient Boosting을 개선한 알고리즘으로, &lt;b&gt;빠른 학습 속도와 높은 예측 성능&lt;/b&gt;을 제공한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;▶&lt;span&gt;&amp;nbsp;&lt;/span&gt;특징&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;병렬 학습 지원&lt;/li&gt;
&lt;li&gt;과적합 방지 기능 제공&lt;/li&gt;
&lt;li&gt;다양한 데이터 분석 대회에서 많이 활용&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;▶ Python 함수&lt;/b&gt;&lt;/p&gt;
&lt;pre class=&quot;angelscript&quot;&gt;&lt;code&gt;from xgboost import XGBClassifier
from xgboost import XGBRegressor
&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;● LightGBM&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;LightGBM은 XGBoost를 개선한 알고리즘으로, &lt;b&gt;학습 속도가 빠르고 메모리 사용량이 적은 것이 특징&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;▶&lt;span&gt;&amp;nbsp;&lt;/span&gt;특징&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;학습 속도가 매우 빠름&lt;/li&gt;
&lt;li&gt;대용량 데이터에 적합&lt;/li&gt;
&lt;li&gt;메모리 사용량이 적음&lt;/li&gt;
&lt;li&gt;데이터가 적은 경우 과적합이 발생할 수 있음&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;▶ Python 함수&lt;/b&gt;&lt;/p&gt;
&lt;pre class=&quot;angelscript&quot;&gt;&lt;code&gt;from lightgbm import LGBMClassifier
from lightgbm import LGBMRegressor
&lt;/code&gt;&lt;/pre&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style3&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;b&gt;※ Mac에서 XGBoost 오류 해결&lt;/b&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;머신러닝 실습 중 XGBoost를 import하는 과정에서 아래와 같은 오류가 발생했다.&lt;/p&gt;
&lt;pre class=&quot;angelscript&quot;&gt;&lt;code&gt;from xgboost import XGBClassifier
&lt;/code&gt;&lt;/pre&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&amp;nbsp;&lt;/h4&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;▶ 발생한 오류&lt;/b&gt;&lt;/h4&gt;
&lt;pre class=&quot;less&quot;&gt;&lt;code&gt;XGBoostError:
Library not loaded: @rpath/libomp.dylib
&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;&amp;rarr; 오류 원인&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Mac에서 XGBoost는 &lt;b&gt;OpenMP(libomp)&lt;/b&gt; 라이브러리를 사용한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;하지만 해당 라이브러리가 설치되어 있지 않으면 XGBoost를 import하는 과정에서 위와 같은 오류가 발생한다.&lt;b&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;&amp;rarr;&lt;span&gt;&amp;nbsp;&lt;/span&gt;해결 방법&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;1. Homebrew 설치 여부 확인&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;터미널에서 아래 명령어를 입력한다.&lt;/p&gt;
&lt;pre class=&quot;ada&quot;&gt;&lt;code&gt;brew --version
&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;만약 아래와 같은 메시지가 출력된다면 Homebrew가 설치되어 있지 않은 상태이다.&lt;/p&gt;
&lt;pre class=&quot;livecodeserver&quot;&gt;&lt;code&gt;command not found: brew
&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;2. Homebrew 설치&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;아래 명령어를 입력하여 Homebrew를 설치한다.&lt;/p&gt;
&lt;pre class=&quot;armasm&quot;&gt;&lt;code&gt;/bin/bash -c &quot;$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)&quot;
&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;3. Homebrew PATH 등록&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;설치가 완료되면 아래 명령어를 &lt;b&gt;순서대로 한 줄씩&lt;/b&gt; 입력한다.&lt;/p&gt;
&lt;pre class=&quot;jboss-cli&quot;&gt;&lt;code&gt;echo &amp;gt;&amp;gt; ~/.zprofile
&lt;/code&gt;&lt;/pre&gt;
&lt;pre class=&quot;jboss-cli&quot;&gt;&lt;code&gt;echo 'eval &quot;$(/opt/homebrew/bin/brew shellenv zsh)&quot;' &amp;gt;&amp;gt; ~/.zprofile
&lt;/code&gt;&lt;/pre&gt;
&lt;pre class=&quot;bash&quot;&gt;&lt;code&gt;eval &quot;$(/opt/homebrew/bin/brew shellenv zsh)&quot;
&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;4. Homebrew 설치 확인&lt;/b&gt;&lt;/p&gt;
&lt;pre class=&quot;ada&quot;&gt;&lt;code&gt;brew --version
&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Homebrew 버전이 출력되면 정상적으로 설치된거다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;5. libomp 설치&lt;/b&gt;&lt;/p&gt;
&lt;pre class=&quot;mipsasm&quot;&gt;&lt;code&gt;brew install libomp
&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;6. libomp 설치 확인&lt;/b&gt;&lt;/p&gt;
&lt;pre class=&quot;vim&quot;&gt;&lt;code&gt;brew list | grep libomp
&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;libomp가 출력되면 정상적으로 설치된거다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;7. 커널 재시작 후 다시 실행&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Jupyter Notebook 또는 VS Code의 커널을 재시작한 뒤 다시 실행한다.&lt;/p&gt;
&lt;pre class=&quot;angelscript&quot;&gt;&lt;code&gt;from xgboost import XGBClassifier
&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;정상적으로 import되면 오류 해결 완!&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;</description>
      <category>내일배움 본캠프</category>
      <category>knn</category>
      <category>Xgboost</category>
      <category>랜덤포레스트</category>
      <category>머신러닝</category>
      <category>부스팅</category>
      <category>의사결정나무</category>
      <author>hyeon-ji</author>
      <guid isPermaLink="true">https://hyeon-ji.tistory.com/45</guid>
      <comments>https://hyeon-ji.tistory.com/45#entry45comment</comments>
      <pubDate>Fri, 26 Jun 2026 20:39:49 +0900</pubDate>
    </item>
    <item>
      <title>[내일배움 본캠프] 과적합이란?</title>
      <link>https://hyeon-ji.tistory.com/44</link>
      <description>&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;☆ To Do List ☆&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;AI 진단퀴즈&lt;/li&gt;
&lt;li&gt;머신러닝 심화 챕터 1 완강&lt;/li&gt;
&lt;li&gt;자소서 작성&lt;/li&gt;
&lt;li&gt;TIL 작성 및 제출&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;font-family: AppleSDGothicNeo-Regular, 'Malgun Gothic', '맑은 고딕', dotum, 돋움, sans-serif;&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt; &lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;font-family: AppleSDGothicNeo-Regular, 'Malgun Gothic', '맑은 고딕', dotum, 돋움, sans-serif;&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt;&lt;span&gt;&amp;nbsp;에이타니&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;● F-statistic&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;F-statistic은 &lt;b&gt;회귀모형 전체가 통계적으로 유의한지&lt;/b&gt;를 평가하는 지표이고, 독립변수들이 종속변수를 설명하는 데 의미가 있는지 확인하는 방법이다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;일반적으로 &lt;b&gt;F-statistic이 클수록 모델의 설명력이 높을 가능성이 크며&lt;/b&gt;, 함께 제공되는 p-value를 통해 최종적으로 유의성을 판단한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;●&lt;span&gt;&amp;nbsp;&lt;/span&gt;p-value&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;p-value는 &lt;b&gt;귀무가설이 참이라는 가정하에 현재와 같은 결과가 우연히 관측될 확률&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;일반적으로 &lt;b&gt;p-value &amp;lt; 0.05&lt;/b&gt;이면 통계적으로 유의하다고 판단하여 귀무가설을 기각하고, &lt;b&gt;p-value &amp;ge; 0.05&lt;/b&gt;이면 귀무가설을 기각하지 않는다.&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt;&lt;span&gt; ️&lt;/span&gt;&amp;nbsp;머신러닝&lt;/span&gt;&lt;/h4&gt;
&lt;h3 data-end=&quot;140&quot; data-start=&quot;115&quot; data-ke-size=&quot;size23&quot;&gt;&lt;b&gt;1. 과적합(Overfitting)이란?&lt;/b&gt;&lt;/h3&gt;
&lt;p data-end=&quot;208&quot; data-start=&quot;142&quot; data-ke-size=&quot;size16&quot;&gt;과적합(Overfitting)은 &lt;b&gt;학습 데이터에만 지나치게 맞춰져 새로운 데이터에서는 성능이 떨어지는 현상&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;344&quot; data-start=&quot;210&quot; data-ke-size=&quot;size16&quot;&gt;머신러닝에서도 특정 데이터만 암기하면 새로운 데이터를 제대로 예측하지 못한다.&lt;/p&gt;
&lt;p data-end=&quot;359&quot; data-start=&quot;346&quot; data-ke-size=&quot;size18&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;359&quot; data-start=&quot;346&quot; data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;● 과적합과 과소적합&lt;/b&gt;&lt;/p&gt;
&lt;div&gt;
&lt;table style=&quot;border-collapse: collapse; width: 65.5814%; height: 104px;&quot; border=&quot;1&quot; data-end=&quot;520&quot; data-start=&quot;361&quot; data-ke-align=&quot;alignLeft&quot; data-ke-style=&quot;style12&quot;&gt;
&lt;tbody data-end=&quot;520&quot; data-start=&quot;379&quot;&gt;
&lt;tr data-end=&quot;431&quot; data-start=&quot;379&quot;&gt;
&lt;td data-col-size=&quot;sm&quot; data-end=&quot;398&quot; data-start=&quot;379&quot;&gt;과소적합(Underfitting)&lt;/td&gt;
&lt;td data-col-size=&quot;sm&quot; data-end=&quot;431&quot; data-start=&quot;398&quot;&gt;모델이 너무 단순하여 학습 데이터도 제대로 학습하지 못함&lt;/td&gt;
&lt;/tr&gt;
&lt;tr data-end=&quot;465&quot; data-start=&quot;432&quot;&gt;
&lt;td data-col-size=&quot;sm&quot; data-end=&quot;439&quot; data-start=&quot;432&quot;&gt;적절한 모델&lt;/td&gt;
&lt;td data-col-size=&quot;sm&quot; data-end=&quot;465&quot; data-start=&quot;439&quot;&gt;학습 데이터와 새로운 데이터 모두 좋은 성능&lt;/td&gt;
&lt;/tr&gt;
&lt;tr data-end=&quot;520&quot; data-start=&quot;466&quot;&gt;
&lt;td data-col-size=&quot;sm&quot; data-end=&quot;483&quot; data-start=&quot;466&quot;&gt;과적합(Overfitting)&lt;/td&gt;
&lt;td data-col-size=&quot;sm&quot; data-end=&quot;520&quot; data-start=&quot;483&quot;&gt;학습 데이터는 매우 잘 맞지만 새로운 데이터에서는 성능이 떨어짐&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;/div&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;545&quot; data-start=&quot;527&quot; data-ke-size=&quot;size23&quot;&gt;&lt;b&gt;2. 과적합이 발생하는 원인&lt;/b&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;645&quot; data-start=&quot;567&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;582&quot; data-start=&quot;567&quot;&gt;모델이 너무 복잡한 경우&lt;/li&gt;
&lt;li data-end=&quot;602&quot; data-start=&quot;583&quot;&gt;학습 데이터의 양이 부족한 경우&lt;/li&gt;
&lt;li data-end=&quot;628&quot; data-start=&quot;603&quot;&gt;학습을 지나치게 많이 반복한 경우(딥러닝)&lt;/li&gt;
&lt;li data-end=&quot;645&quot; data-start=&quot;629&quot;&gt;데이터 불균형이 심한 경우&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;671&quot; data-start=&quot;652&quot; data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;● Train/Test 데이터 분리&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;712&quot; data-start=&quot;673&quot; data-ke-size=&quot;size16&quot;&gt;과적합을 방지하기 위해 데이터를 &lt;b&gt;학습용(train)과 평가용(test)으로 분리&lt;/b&gt;해야&amp;nbsp;한다.&lt;/p&gt;
&lt;div&gt;&amp;nbsp;&lt;/div&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;803&quot; data-start=&quot;779&quot;&gt;Train Data : 모델 학습(fit)&lt;/li&gt;
&lt;li data-end=&quot;803&quot; data-start=&quot;779&quot;&gt;Test Data : 모델 성능 평가&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;▶ 함수&lt;/b&gt;&lt;/p&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;&amp;nbsp;&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;pre id=&quot;code_1782382746624&quot; class=&quot;python&quot; data-ke-language=&quot;python&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;from sklearn.model_selection import train_test_split&lt;/code&gt;&lt;/pre&gt;
&lt;p data-end=&quot;878&quot; data-start=&quot;873&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;878&quot; data-start=&quot;873&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;▶&lt;span&gt;&amp;nbsp;함수&lt;/span&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;주요 옵션&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;990&quot; data-start=&quot;880&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;906&quot; data-start=&quot;880&quot;&gt;test_size : 테스트 데이터 비율&lt;/li&gt;
&lt;li data-end=&quot;933&quot; data-start=&quot;907&quot;&gt;train_size : 학습 데이터 비율&lt;/li&gt;
&lt;li data-end=&quot;954&quot; data-start=&quot;934&quot;&gt;shuffle : 데이터 섞기&lt;/li&gt;
&lt;li data-end=&quot;990&quot; data-start=&quot;955&quot;&gt;random_state : 동일한 결과를 위한 난수 고정&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1077&quot; data-start=&quot;1052&quot; data-ke-size=&quot;size18&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1077&quot; data-start=&quot;1052&quot; data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;● 교차 검증(Cross Validation)&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;1128&quot; data-start=&quot;1079&quot; data-ke-size=&quot;size16&quot;&gt;Train/Test를 한 번만 나누면 우연히 좋은 결과가 나올 수 있다. 이를 보완하기 위해서는&amp;nbsp;&lt;b&gt;교차 검증(Cross Validation)&lt;/b&gt;이 필요하다.&lt;/p&gt;
&lt;p data-end=&quot;1128&quot; data-start=&quot;1079&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1200&quot; data-start=&quot;1179&quot; data-ke-size=&quot;size16&quot;&gt;데이터를 여러 개(Fold)로 나누고,&lt;/p&gt;
&lt;blockquote data-end=&quot;1221&quot; data-start=&quot;1202&quot; data-ke-style=&quot;style1&quot;&gt;
&lt;p data-end=&quot;1221&quot; data-start=&quot;1204&quot; data-ke-size=&quot;size16&quot;&gt;학습 &amp;rarr; 검증 &amp;rarr; 학습 &amp;rarr; 검증&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p data-end=&quot;1248&quot; data-start=&quot;1223&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1248&quot; data-start=&quot;1223&quot; data-ke-size=&quot;size16&quot;&gt;을 반복하여 평균 성능을 계산하는 방법이다.&lt;/p&gt;
&lt;p data-end=&quot;1248&quot; data-start=&quot;1223&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1281&quot; data-start=&quot;1255&quot; data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;● K-Fold Cross Validation&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;1306&quot; data-start=&quot;1283&quot; data-ke-size=&quot;size16&quot;&gt;가장 많이 사용하는 교차 검증 방법.&lt;/p&gt;
&lt;p data-end=&quot;1319&quot; data-start=&quot;1308&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1319&quot; data-start=&quot;1308&quot; data-ke-size=&quot;size16&quot;&gt;ex) K = 5라면&lt;/p&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div id=&quot;code-block-viewer&quot;&gt;
&lt;div&gt;
&lt;pre class=&quot;ada&quot;&gt;&lt;code&gt;1회 : Fold1 검증
2회 : Fold2 검증
3회 : Fold3 검증
4회 : Fold4 검증
5회 : Fold5 검증&lt;/code&gt;&lt;/pre&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;div&gt;&amp;nbsp;&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;p data-end=&quot;1423&quot; data-start=&quot;1400&quot; data-ke-size=&quot;size16&quot;&gt;총 5번 학습하여 평균 성능을 계산한다.&lt;/p&gt;
&lt;p data-end=&quot;1431&quot; data-start=&quot;1425&quot; data-ke-size=&quot;size18&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1431&quot; data-start=&quot;1425&quot; data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;○ 장점&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1472&quot; data-start=&quot;1433&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1448&quot; data-start=&quot;1433&quot;&gt;데이터가 적을 때 효과적&lt;/li&gt;
&lt;li data-end=&quot;1472&quot; data-start=&quot;1449&quot;&gt;모델 성능을 더욱 안정적으로 평가 가능&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1479&quot; data-start=&quot;1474&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;▶ 함수&lt;/b&gt;&lt;/p&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div id=&quot;code-block-viewer&quot;&gt;
&lt;div&gt;
&lt;pre class=&quot;stylus&quot;&gt;&lt;code&gt;KFold()&lt;/code&gt;&lt;/pre&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;div&gt;&amp;nbsp;&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;p data-end=&quot;1514&quot; data-start=&quot;1504&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1514&quot; data-start=&quot;1504&quot; data-ke-size=&quot;size16&quot;&gt;불균형 데이터에서는&lt;/p&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div id=&quot;code-block-viewer&quot;&gt;
&lt;div&gt;
&lt;pre class=&quot;stylus&quot;&gt;&lt;code&gt;StratifiedKFold()&lt;/code&gt;&lt;/pre&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;div&gt;&amp;nbsp;&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;p data-end=&quot;1564&quot; data-start=&quot;1549&quot; data-ke-size=&quot;size16&quot;&gt;를 사용하는 것이 좋다.&lt;/p&gt;
&lt;p data-end=&quot;1564&quot; data-start=&quot;1549&quot; data-ke-size=&quot;size18&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1597&quot; data-start=&quot;1571&quot; data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;● 하이퍼파라미터 튜닝(GridSearchCV)&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;1652&quot; data-start=&quot;1599&quot; data-ke-size=&quot;size16&quot;&gt;모델에는 사람이 설정하는 값인 &lt;b&gt;하이퍼파라미터(Hyperparameter)&lt;/b&gt;가 존재한다.&lt;/p&gt;
&lt;p data-end=&quot;1860&quot; data-start=&quot;1800&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1860&quot; data-start=&quot;1800&quot; data-ke-size=&quot;size16&quot;&gt;그 중 GridSearchCV는 여러 하이퍼파라미터 값을 자동으로 적용해 모델을 반복 학습하고 평가한 뒤, 가장 좋은 성능을 보이는 하이퍼파라미터 조합을 찾아주는 기능이다.&lt;/p&gt;
&lt;p data-end=&quot;1860&quot; data-start=&quot;1800&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1886&quot; data-start=&quot;1867&quot; data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;▶&lt;span&gt;&amp;nbsp;&lt;/span&gt;GridSearchCV의 장점&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1936&quot; data-start=&quot;1888&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1907&quot; data-start=&quot;1888&quot;&gt;최적의 하이퍼파라미터 자동 탐색&lt;/li&gt;
&lt;li data-end=&quot;1925&quot; data-start=&quot;1908&quot;&gt;교차 검증과 함께 수행 가능&lt;/li&gt;
&lt;li data-end=&quot;1936&quot; data-start=&quot;1926&quot;&gt;모델 성능 향상&lt;/li&gt;
&lt;/ul&gt;</description>
      <category>내일배움 본캠프</category>
      <category>F-statistic</category>
      <category>P-value</category>
      <category>Test</category>
      <category>Til</category>
      <category>train</category>
      <category>과소적합</category>
      <category>과적합</category>
      <author>hyeon-ji</author>
      <guid isPermaLink="true">https://hyeon-ji.tistory.com/44</guid>
      <comments>https://hyeon-ji.tistory.com/44#entry44comment</comments>
      <pubDate>Thu, 25 Jun 2026 20:40:49 +0900</pubDate>
    </item>
    <item>
      <title>[내일배움 본캠프]EDA와 데이터 전처리</title>
      <link>https://hyeon-ji.tistory.com/43</link>
      <description>&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;☆ To Do List ☆&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;AI 진단퀴즈&lt;/li&gt;
&lt;li&gt;머신러닝 심화 1-7 수강&lt;/li&gt;
&lt;li&gt;자소서 작성하기&lt;/li&gt;
&lt;li&gt;라이브세션(19:30)&lt;/li&gt;
&lt;li&gt;아티클 스터디&lt;/li&gt;
&lt;li&gt;TIL 작성 및 제출&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;font-family: AppleSDGothicNeo-Regular, 'Malgun Gothic', '맑은 고딕', dotum, 돋움, sans-serif;&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt; &lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;font-family: AppleSDGothicNeo-Regular, 'Malgun Gothic', '맑은 고딕', dotum, 돋움, sans-serif;&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt;&lt;span&gt;&amp;nbsp;에이타니&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #2e2f36; text-align: start;&quot;&gt;● Feature Engineering란?&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;원본 데이터로부터 새로운 특성을 생성하거나 기존 특성을 변환하는 과정이다.&lt;/li&gt;
&lt;li&gt;모델의 예측 성능을 향상시키기 위한 핵심적인 데이터 전처리 기법이다.&lt;/li&gt;
&lt;li&gt;적절한 Feature Engineering을 통해 단순한 모델로도 높은 성능을 달성할 수 있다.&lt;/li&gt;
&lt;li&gt;도메인 지식과 데이터에 대한 이해가 매우 중요한 과정이다.&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt;&lt;span&gt; ️&lt;/span&gt;&amp;nbsp;머신러닝&lt;/span&gt;&lt;/h4&gt;
&lt;p data-end=&quot;109&quot; data-start=&quot;87&quot; data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;■ 데이터 분석에서 전처리가 중요한 이유&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;239&quot; data-start=&quot;111&quot; data-ke-size=&quot;size16&quot;&gt;데이터 분석은 단순히 모델을 만드는 과정이 아니라, 실제 업무에서는 데이터를 수집하고, 이해하고, 정제하는 과정이 대부분의 시간을 차지한다. 특히 데이터 전처리는 전체 분석 과정의 약 80~90%를 차지할 정도로 중요한 단계이다!&lt;/p&gt;
&lt;p data-end=&quot;239&quot; data-start=&quot;111&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;239&quot; data-start=&quot;111&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-end=&quot;239&quot; data-start=&quot;111&quot; data-ke-size=&quot;size20&quot;&gt;1. 데이터 분석 프로세스&lt;/h4&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;607&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/egiOSl/dJMcahZaLfX/krwCKGyduNYGrFdLgC9PoK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/egiOSl/dJMcahZaLfX/krwCKGyduNYGrFdLgC9PoK/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/egiOSl/dJMcahZaLfX/krwCKGyduNYGrFdLgC9PoK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FegiOSl%2FdJMcahZaLfX%2FkrwCKGyduNYGrFdLgC9PoK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;765&quot; height=&quot;363&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;607&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;ol style=&quot;list-style-type: decimal;&quot; data-ke-list-type=&quot;decimal&quot;&gt;
&lt;li&gt;Data Source&amp;nbsp; &amp;nbsp; &amp;nbsp;&amp;rarr;&amp;nbsp; &amp;nbsp; DB, 로그, API, 외부 데이터 등 원천 데이터&lt;/li&gt;
&lt;li&gt;Data Lake&amp;nbsp; &amp;nbsp; &amp;nbsp;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&amp;rarr;&amp;nbsp; &amp;nbsp;&lt;span&gt; Raw Data 저장&lt;/span&gt;&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;Data Warehouse&amp;nbsp; &amp;nbsp; &amp;nbsp;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&amp;rarr;&amp;nbsp; &amp;nbsp;&lt;span&gt; 정제된 데이터를 저장&lt;/span&gt;&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;Data Mart&amp;nbsp; &amp;nbsp; &amp;nbsp;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&amp;rarr;&amp;nbsp; &amp;nbsp;&lt;span&gt; 특정 부서 목적에 맞게 가공된 데이터&lt;/span&gt;&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;BI / Analytics&amp;nbsp; &amp;nbsp; &amp;nbsp;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&amp;rarr;&amp;nbsp; &amp;nbsp;&lt;span&gt; 분석 및 의사결정 활용&lt;/span&gt;&lt;/span&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&lt;span&gt;● 데이터 수집 방법&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;652&quot; data-start=&quot;632&quot;&gt;SQL을 이용한 사내 데이터 추출&lt;/li&gt;
&lt;li data-end=&quot;672&quot; data-start=&quot;653&quot;&gt;CSV / Excel 파일 활용&lt;/li&gt;
&lt;li data-end=&quot;686&quot; data-start=&quot;673&quot;&gt;Open API 활용&lt;/li&gt;
&lt;li data-end=&quot;708&quot; data-start=&quot;687&quot;&gt;웹 크롤링(Web Crawling)&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;2. 탐색적 데이터 분석(EDA)&lt;/b&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;rarr; EDA(Exploratory Data Analysis)는 데이터를 본격적으로 분석하기 전에 데이터의 특징과 구조를 파악하는 과정이다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;EDA를 통해&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;876&quot; data-start=&quot;822&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;833&quot; data-start=&quot;822&quot;&gt;데이터 분포 확인&lt;/li&gt;
&lt;li data-end=&quot;842&quot; data-start=&quot;834&quot;&gt;이상치 확인&lt;/li&gt;
&lt;li data-end=&quot;851&quot; data-start=&quot;843&quot;&gt;결측치 확인&lt;/li&gt;
&lt;li data-end=&quot;864&quot; data-start=&quot;852&quot;&gt;변수 간 관계 파악&lt;/li&gt;
&lt;li data-end=&quot;876&quot; data-start=&quot;865&quot;&gt;모델링 방향 결정&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;890&quot; data-start=&quot;878&quot; data-ke-size=&quot;size16&quot;&gt;등을 수행할 수 있다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&lt;span&gt;● 대표적인 EDA 시각화&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;table style=&quot;border-collapse: collapse; width: 34.3023%; height: 228px;&quot; border=&quot;1&quot; data-ke-align=&quot;alignLeft&quot; data-ke-style=&quot;style12&quot;&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 50%; text-align: center;&quot;&gt;그래프&lt;/td&gt;
&lt;td style=&quot;width: 50%; text-align: center;&quot;&gt;목적&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 50%; text-align: center;&quot;&gt;Count Plot&lt;/td&gt;
&lt;td style=&quot;width: 50%; text-align: center;&quot;&gt;범주별 빈도 확인&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 50%; text-align: center;&quot;&gt;Bar Plot&lt;/td&gt;
&lt;td style=&quot;width: 50%; text-align: center;&quot;&gt;그룹별 평균 비교&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 50%; text-align: center;&quot;&gt;Box Plot&lt;/td&gt;
&lt;td style=&quot;width: 50%; text-align: center;&quot;&gt;분포 및 이상치 확인&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 50%; text-align: center;&quot;&gt;Histogram&lt;/td&gt;
&lt;td style=&quot;width: 50%; text-align: center;&quot;&gt;데이터 분포 확인&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 50%; text-align: center;&quot;&gt;Scatter Plot&lt;/td&gt;
&lt;td style=&quot;width: 50%; text-align: center;&quot;&gt;변수 간 관계 확인&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 50%; text-align: center;&quot;&gt;Pair Plot&lt;/td&gt;
&lt;td style=&quot;width: 50%; text-align: center;&quot;&gt;전체 변수 관계 확인&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;3. 데이터 전처리&lt;/b&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&amp;rarr;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;데이터 전처리는 분석 가능한 형태로 데이터를 정리하는 과정이다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;대표적으로&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1208&quot; data-start=&quot;1178&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1186&quot; data-start=&quot;1178&quot;&gt;이상치 처리&lt;/li&gt;
&lt;li data-end=&quot;1195&quot; data-start=&quot;1187&quot;&gt;결측치 처리&lt;/li&gt;
&lt;li data-end=&quot;1201&quot; data-start=&quot;1196&quot;&gt;인코딩&lt;/li&gt;
&lt;li data-end=&quot;1208&quot; data-start=&quot;1202&quot;&gt;스케일링&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1217&quot; data-start=&quot;1210&quot; data-ke-size=&quot;size16&quot;&gt;을 수행한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;4. 이상치(Outlier) 처리&lt;/b&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;rarr;&amp;nbsp;이상치는 일반적인 데이터 범위에서 크게 벗어난 값을 의미한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&lt;span&gt;●&lt;span&gt;&amp;nbsp;대표적인 탐지 방법&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1318&quot; data-start=&quot;1298&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;① ESD (3&amp;sigma; Rule)&lt;/b&gt; : 평균에서 표준편차의 3배 이상 벗어난 값&lt;/p&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div id=&quot;code-block-viewer&quot;&gt;
&lt;div&gt;
&lt;pre class=&quot;angelscript&quot;&gt;&lt;code&gt;평균 &amp;plusmn; 3 &amp;times; 표준편차&lt;/code&gt;&lt;/pre&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;div&gt;&amp;nbsp;&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;p data-end=&quot;1384&quot; data-start=&quot;1371&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;② IQR 방법&lt;/b&gt; : 사분위수를 이용한 이상치 탐지&lt;/p&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div id=&quot;code-block-viewer&quot;&gt;
&lt;div&gt;
&lt;pre class=&quot;armasm&quot;&gt;&lt;code&gt;IQR = Q3 - Q1

상한 = Q3 + 1.5 &amp;times; IQR
하한 = Q1 - 1.5 &amp;times; IQR&lt;/code&gt;&lt;/pre&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;※ 주의사항&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이상치는 무조건 제거하는 것이 옳은 방법이 아니다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1540&quot; data-start=&quot;1505&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1523&quot; data-start=&quot;1505&quot;&gt;실제 오류 데이터일 수도 있음&lt;/li&gt;
&lt;li data-end=&quot;1540&quot; data-start=&quot;1524&quot;&gt;중요한 이벤트일 수도 있음&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1567&quot; data-start=&quot;1542&quot; data-ke-size=&quot;size16&quot;&gt;따라서 도메인 지식을 고려하여 판단하는 것이 중요하다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;5. 결측치(Missing Value) 처리&lt;/b&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;rarr;&amp;nbsp;결측치는 값이 존재하지 않는 데이터를 의미한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;①&lt;span&gt; 수치형 데이터&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1651&quot; data-start=&quot;1643&quot;&gt;평균값 대치&lt;/li&gt;
&lt;li data-end=&quot;1660&quot; data-start=&quot;1652&quot;&gt;중앙값 대치&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;② 범주형 데이터&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;최빈값 대치&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;③ 처리 방법&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1706&quot; data-start=&quot;1696&quot;&gt;삭제(Drop)&lt;/li&gt;
&lt;li data-end=&quot;1726&quot; data-start=&quot;1707&quot;&gt;단순 대치(Imputation)&lt;/li&gt;
&lt;li data-end=&quot;1753&quot; data-start=&quot;1727&quot;&gt;머신러닝 기반 대치(KNN, 회귀 대치 등)&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;※&lt;span&gt;&amp;nbsp;&lt;/span&gt;주의사항&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;평균값 대치는 쉽지만 이상치가 많을 경우 왜곡될 수 있으므로 중앙값을 사용하는 경우도 많다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;6. 범주형 데이터 전처리 (인코딩)&lt;/b&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;① Label Encoding : &lt;/b&gt;범주를 숫자로 변환&lt;/p&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div id=&quot;code-block-viewer&quot;&gt;
&lt;div&gt;
&lt;pre class=&quot;angelscript&quot;&gt;&lt;code&gt;1등급 &amp;rarr; 0
2등급 &amp;rarr; 1
3등급 &amp;rarr; 2&lt;/code&gt;&lt;/pre&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;div&gt;&amp;nbsp;&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;p data-end=&quot;1975&quot; data-start=&quot;1969&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;▶ 장점&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1993&quot; data-start=&quot;1977&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1982&quot; data-start=&quot;1977&quot;&gt;간단함&lt;/li&gt;
&lt;li data-end=&quot;1993&quot; data-start=&quot;1983&quot;&gt;차원 증가 없음&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2001&quot; data-start=&quot;1995&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;b&gt;▶&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/b&gt;단점&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2034&quot; data-start=&quot;2003&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2034&quot; data-start=&quot;2003&quot;&gt;순서가 없는 데이터에도 순서가 있다고 학습할 수 있음&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;②&lt;span&gt; One-Hot Encoding : &lt;/span&gt;&lt;/b&gt;각 범주를 독립적인 변수로 변환&lt;/p&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div id=&quot;code-block-viewer&quot;&gt;
&lt;div&gt;
&lt;pre class=&quot;angelscript&quot;&gt;&lt;code&gt;빨강 &amp;rarr; [1,0,0]
파랑 &amp;rarr; [0,1,0]
초록 &amp;rarr; [0,0,1]&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;▶ 장점&lt;/b&gt;&lt;/p&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;h3 data-end=&quot;2139&quot; data-start=&quot;2133&quot; data-ke-size=&quot;size23&quot;&gt;&amp;nbsp;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2165&quot; data-start=&quot;2141&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2151&quot; data-start=&quot;2141&quot;&gt;순서 왜곡 방지&lt;/li&gt;
&lt;li data-end=&quot;2165&quot; data-start=&quot;2152&quot;&gt;명목형 데이터에 적합&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2173&quot; data-start=&quot;2167&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;b&gt;▶&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/b&gt;단점&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2192&quot; data-start=&quot;2175&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2192&quot; data-start=&quot;2175&quot;&gt;범주 수가 많으면 차원 증가&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&amp;nbsp;&lt;/h4&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;7. 수치형 데이터 전처리 (스케일링)&lt;/b&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;rarr; 각 변수의 단위 차이를 보정하는 과정이다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;2356&quot; data-start=&quot;2332&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;① 표준화 (Standardization) : &lt;/b&gt;평균 0, 표준편차 1로 변환&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;212&quot; data-origin-height=&quot;108&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/d3CRDt/dJMcaf1lijk/DkGJuW7pQqkBtGb1kR3BRK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/d3CRDt/dJMcaf1lijk/DkGJuW7pQqkBtGb1kR3BRK/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/d3CRDt/dJMcaf1lijk/DkGJuW7pQqkBtGb1kR3BRK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fd3CRDt%2FdJMcaf1lijk%2FDkGJuW7pQqkBtGb1kR3BRK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;147&quot; height=&quot;75&quot; data-origin-width=&quot;212&quot; data-origin-height=&quot;108&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;2414&quot; data-start=&quot;2408&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;2414&quot; data-start=&quot;2408&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;b&gt;▶ &lt;/b&gt;&lt;/b&gt;특징&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2445&quot; data-start=&quot;2416&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2426&quot; data-start=&quot;2416&quot;&gt;가장 많이 사용&lt;/li&gt;
&lt;li data-end=&quot;2445&quot; data-start=&quot;2427&quot;&gt;이상치가 있어도 비교적 안정적&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-end=&quot;2450&quot; data-start=&quot;2447&quot; data-ke-style=&quot;style1&quot; /&gt;
&lt;p data-end=&quot;2474&quot; data-start=&quot;2452&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;②&lt;span&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;정규화 (Normalization) : &lt;/b&gt;0~1 범위로 변환&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;400&quot; data-origin-height=&quot;138&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cVs5H0/dJMcacKpEUx/K3cwXT2Od5zdGDOfr1nmK1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cVs5H0/dJMcacKpEUx/K3cwXT2Od5zdGDOfr1nmK1/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cVs5H0/dJMcacKpEUx/K3cwXT2Od5zdGDOfr1nmK1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcVs5H0%2FdJMcacKpEUx%2FK3cwXT2Od5zdGDOfr1nmK1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;287&quot; height=&quot;99&quot; data-origin-width=&quot;400&quot; data-origin-height=&quot;138&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;2547&quot; data-start=&quot;2541&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;2547&quot; data-start=&quot;2541&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;▶ 특징&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2564&quot; data-start=&quot;2549&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2556&quot; data-start=&quot;2549&quot;&gt;최소값 0&lt;/li&gt;
&lt;li data-end=&quot;2564&quot; data-start=&quot;2557&quot;&gt;최대값 1&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2572&quot; data-start=&quot;2566&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;▶ 단점&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2583&quot; data-start=&quot;2574&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2583&quot; data-start=&quot;2574&quot;&gt;이상치에 민감&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-end=&quot;2588&quot; data-start=&quot;2585&quot; data-ke-style=&quot;style1&quot; /&gt;
&lt;p data-end=&quot;2619&quot; data-start=&quot;2590&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;③ 로버스트 스케일링 (Robust Scaling) : &lt;/b&gt;중앙값과 IQR을 이용&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;408&quot; data-origin-height=&quot;146&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/yxwJ1/dJMcaaeJzrJ/lD7GN4pfkthBiTm1G1HPKk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/yxwJ1/dJMcaaeJzrJ/lD7GN4pfkthBiTm1G1HPKk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/yxwJ1/dJMcaaeJzrJ/lD7GN4pfkthBiTm1G1HPKk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FyxwJ1%2FdJMcaaeJzrJ%2FlD7GN4pfkthBiTm1G1HPKk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;282&quot; height=&quot;101&quot; data-origin-width=&quot;408&quot; data-origin-height=&quot;146&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;2683&quot; data-start=&quot;2677&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;2683&quot; data-start=&quot;2677&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;▶ 특징&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2714&quot; data-start=&quot;2685&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2697&quot; data-start=&quot;2685&quot;&gt;이상치 영향 최소화&lt;/li&gt;
&lt;li data-end=&quot;2714&quot; data-start=&quot;2698&quot;&gt;데이터가 치우친 경우 유용&lt;/li&gt;
&lt;/ul&gt;</description>
      <category>내일배움 본캠프</category>
      <category>EDA</category>
      <category>Til</category>
      <category>결측치</category>
      <category>데이터 분석</category>
      <category>스케일링</category>
      <category>이상치</category>
      <category>인코딩</category>
      <category>전처리</category>
      <author>hyeon-ji</author>
      <guid isPermaLink="true">https://hyeon-ji.tistory.com/43</guid>
      <comments>https://hyeon-ji.tistory.com/43#entry43comment</comments>
      <pubDate>Wed, 24 Jun 2026 20:38:17 +0900</pubDate>
    </item>
    <item>
      <title>[내일배움 본캠프] 통계에서 재현성의 중요성</title>
      <link>https://hyeon-ji.tistory.com/42</link>
      <description>&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;☆ To Do List ☆&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;AI 진단퀴즈&lt;/li&gt;
&lt;li&gt;기초통계 완강하기&lt;/li&gt;
&lt;li&gt;라이브세션(19:30)&lt;/li&gt;
&lt;li&gt;자소서 작성하기&lt;/li&gt;
&lt;li&gt;TIL 작성 및 제출&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;font-family: AppleSDGothicNeo-Regular, 'Malgun Gothic', '맑은 고딕', dotum, 돋움, sans-serif;&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt; &lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;font-family: AppleSDGothicNeo-Regular, 'Malgun Gothic', '맑은 고딕', dotum, 돋움, sans-serif;&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt;&lt;span&gt;&amp;nbsp;에이타니&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;background-color: #ffffff; color: #2e2f36; text-align: start;&quot;&gt;● MSE (Mean Squared Error)&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;오차를 제곱하여 평균을 내는 지표&lt;/li&gt;
&lt;li&gt;오차를 제곱하기 때문에 오차가 1보다 큰 경우 그 값이 기하급수적으로 증가하게 되어, 큰 오차를 발생시키는 예측에 더 큰 페널티를 줄 수 있음&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;background-color: #ffffff; color: #2e2f36; text-align: start;&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #2e2f36; text-align: start;&quot;&gt;●&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;MAE (Mean Absolute Error)&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;오차의 절대값(Absolute Value)을 평균낸 지표&lt;/li&gt;
&lt;li&gt;오차를 제곱하지 않고 절대값으로 계산하기 때문에 모든 오차를 동일한 비중으로 반영함&lt;/li&gt;
&lt;li&gt;이상치(Outlier)의 영향이 MSE보다 적으며, 실제 예측값이 평균적으로 얼마나 벗어났는지를 직관적으로 해석할 수 있음&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #2e2f36; text-align: start;&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #2e2f36; text-align: start;&quot;&gt;●&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;MAPE (Mean Absolute Percentage Error)&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;실제값 대비 오차의 비율(%)을 계산한 후 평균낸 지표&lt;/li&gt;
&lt;li&gt;예측 오차를 백분율로 표현하기 때문에 데이터의 단위와 관계없이 모델 성능을 해석 가능&lt;/li&gt;
&lt;li&gt;예를 들어 MAPE가 10%라면 예측값이 실제값에서 평균적으로 10% 정도 벗어났음을 의미함. 다만 실제값이 0에 가깝거나 0인 경우 값이 매우 커지거나 계산이 불가능하다는 단점 존재&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #2e2f36; text-align: start;&quot;&gt;&lt;span style=&quot;color: #2e2f36; text-align: start;&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #2e2f36; text-align: start;&quot;&gt;●&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;R&amp;sup2;(결정계수)&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;모델이 데이터의 분산을 얼마나 설명하는지를 나타낸 상대적 지표&lt;/li&gt;
&lt;li&gt;값 자체에 단위가 포함되지 않는 무차원(Dimensionless) 지표이므로 타겟 변수의 단위(Scale)에 무관하며, 특성이 다른 여러 데이터셋 간의 성능을 직접 비교할 때 매우 유용함&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt; 기초통계&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;항상 통계로 데이터 분석을 진행할 때에는 언제 어디서든, 어떤 사람이 진행하든 동일한 결과가 나와야 한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;101&quot; data-start=&quot;74&quot; data-ke-size=&quot;size23&quot;&gt;&lt;b&gt;재현성(Reproducibility)이란?&lt;/b&gt;&lt;/h3&gt;
&lt;p data-end=&quot;271&quot; data-start=&quot;103&quot; data-ke-size=&quot;size16&quot;&gt;재현성이란 동일한 연구나 실험을 반복했을 때 비슷한 결과가 다시 나타나는지를 의미한다. 연구 결과의 신뢰성을 판단하는 중요한 기준이고, 최근 학계에서는 동일한 논문을 다시 실험했을 때 같은 결과가 나오지 않는 &lt;b&gt;재현성 위기(Reproducibility Crisis)&lt;/b&gt; 가 큰 문제로 대두되고 있다.&lt;/p&gt;
&lt;p data-end=&quot;271&quot; data-start=&quot;103&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-end=&quot;388&quot; data-start=&quot;370&quot; data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;재현성 위기가 발생하는 이유&lt;/b&gt;&lt;/h4&gt;
&lt;p data-end=&quot;421&quot; data-start=&quot;390&quot; data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;1. 실험 조건을 완전히 동일하게 재현하기 어렵다&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;533&quot; data-start=&quot;423&quot; data-ke-size=&quot;size16&quot;&gt;실제 연구에서는 환경, 대상, 측정 방법 등의 차이로 인해 동일한 실험을 완벽하게 반복하기 어렵다. 또한 통계 검정 자체도 오류 가능성을 포함하고 있기 때문에 항상 같은 결과가 나오는 것은 아니다.&lt;/p&gt;
&lt;p data-end=&quot;533&quot; data-start=&quot;423&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;554&quot; data-start=&quot;535&quot; data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;2. 가설검정의 잘못된 사용&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;614&quot; data-start=&quot;556&quot; data-ke-size=&quot;size16&quot;&gt;통계 분석 과정에서 연구자가 의도적으로 혹은 무의식적으로 유리한 결과만 선택하면 재현성이 크게 떨어진다.&lt;/p&gt;
&lt;p data-end=&quot;648&quot; data-start=&quot;616&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;648&quot; data-start=&quot;616&quot; data-ke-size=&quot;size16&quot;&gt;대표적인 사례로는 &lt;b&gt;p-해킹(p-hacking)&lt;/b&gt; 이 있다.&lt;/p&gt;
&lt;p data-end=&quot;648&quot; data-start=&quot;616&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-end=&quot;676&quot; data-start=&quot;655&quot; data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;p-해킹(P-Hacking)이란?&lt;/b&gt;&lt;/h4&gt;
&lt;p data-end=&quot;751&quot; data-start=&quot;678&quot; data-ke-size=&quot;size16&quot;&gt;p-해킹은 유의수준(일반적으로 0.05) 이하의 결과가 나올 때까지 반복적으로 데이터를 분석하거나 조건을 변경하는 행위를 의미한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;845&quot; data-start=&quot;761&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;783&quot; data-start=&quot;761&quot;&gt;여러 변수를 반복적으로 시도하는 경우&lt;/li&gt;
&lt;li data-end=&quot;816&quot; data-start=&quot;784&quot;&gt;원하는 결과가 나올 때까지 데이터를 계속 수집하는 경우&lt;/li&gt;
&lt;li data-end=&quot;845&quot; data-start=&quot;817&quot;&gt;여러 분석 결과 중 유의한 결과만 보고하는 경우&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 data-end=&quot;877&quot; data-start=&quot;870&quot; data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;문제점&lt;/b&gt;&lt;/h4&gt;
&lt;p data-end=&quot;946&quot; data-start=&quot;879&quot; data-ke-size=&quot;size16&quot;&gt;p-해킹은 실제로는 의미 없는 결과를 의미 있는 결과처럼 보이게 만들 수 있으며, 연구 결과의 신뢰성을 크게 저하시킨다.&lt;/p&gt;
&lt;p data-end=&quot;946&quot; data-start=&quot;879&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;983&quot; data-start=&quot;953&quot; data-ke-size=&quot;size23&quot;&gt;&lt;b&gt;선택적 보고(Selective Reporting)&lt;/b&gt;&lt;/h3&gt;
&lt;p data-end=&quot;1044&quot; data-start=&quot;985&quot; data-ke-size=&quot;size16&quot;&gt;선택적 보고란 수행한 모든 분석 결과를 공개하지 않고, 통계적으로 유의한 결과만 발표하는 행위를 의미한다.&lt;/p&gt;
&lt;p data-end=&quot;1123&quot; data-start=&quot;1046&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 20개의 가설을 검정했는데 그중 1개만 유의하게 나왔다면, 해당 결과만 보고할 경우 실제 효과보다 과장된 결론을 내릴 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;1175&quot; data-start=&quot;1125&quot; data-ke-size=&quot;size16&quot;&gt;따라서 연구에서는 유의한 결과뿐 아니라 유의하지 않은 결과도 함께 보고하는 것이 중요하다.&lt;/p&gt;
&lt;p data-end=&quot;1175&quot; data-start=&quot;1125&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-end=&quot;1202&quot; data-start=&quot;1182&quot; data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;데이터 수집 중단 시점의 중요성&lt;/b&gt;&lt;/h4&gt;
&lt;p data-end=&quot;1244&quot; data-start=&quot;1204&quot; data-ke-size=&quot;size16&quot;&gt;데이터 수집을 시작하기 전에 언제 데이터를 수집할지 미리 결정해야 한다.&lt;/p&gt;
&lt;p data-end=&quot;1307&quot; data-start=&quot;1246&quot; data-ke-size=&quot;size16&quot;&gt;만약 연구 도중 결과를 확인하면서 데이터를 추가 수집한다면 특정 시점에서 우연히 유의한 결과가 나올 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1385&quot; data-start=&quot;1314&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1332&quot; data-start=&quot;1314&quot;&gt;원래 50명을 조사하기로 계획&lt;/li&gt;
&lt;li data-end=&quot;1346&quot; data-start=&quot;1333&quot;&gt;결과가 유의하지 않음&lt;/li&gt;
&lt;li data-end=&quot;1361&quot; data-start=&quot;1347&quot;&gt;100명까지 추가 조사&lt;/li&gt;
&lt;li data-end=&quot;1385&quot; data-start=&quot;1362&quot;&gt;우연히 p-value &amp;lt; 0.05 달성&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1410&quot; data-start=&quot;1387&quot; data-ke-size=&quot;size16&quot;&gt;위와 같은 경우, 결과가 왜곡될 가능성이 존재한다.&lt;/p&gt;
&lt;h2 data-end=&quot;1434&quot; data-start=&quot;1417&quot; data-ke-size=&quot;size26&quot;&gt;&amp;nbsp;&lt;/h2&gt;
&lt;h3 data-end=&quot;1434&quot; data-start=&quot;1417&quot; data-ke-size=&quot;size23&quot;&gt;&lt;b&gt;데이터 탐색과 검증의 분리&lt;/b&gt;&lt;/h3&gt;
&lt;p data-end=&quot;1492&quot; data-start=&quot;1436&quot; data-ke-size=&quot;size16&quot;&gt;좋은 분석은 &lt;b&gt;탐색(Exploration)&lt;/b&gt; 과 &lt;b&gt;검증(Validation)&lt;/b&gt; 을 구분한다.&lt;/p&gt;
&lt;h4 data-end=&quot;1503&quot; data-start=&quot;1494&quot; data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;탐색 단계&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1539&quot; data-start=&quot;1505&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1516&quot; data-start=&quot;1505&quot;&gt;데이터 패턴 확인&lt;/li&gt;
&lt;li data-end=&quot;1527&quot; data-start=&quot;1517&quot;&gt;변수 관계 탐색&lt;/li&gt;
&lt;li data-end=&quot;1539&quot; data-start=&quot;1528&quot;&gt;새로운 가설 생성&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 data-end=&quot;1550&quot; data-start=&quot;1541&quot; data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;검증 단계&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1591&quot; data-start=&quot;1552&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1568&quot; data-start=&quot;1552&quot;&gt;독립된 데이터로 가설 검증&lt;/li&gt;
&lt;li data-end=&quot;1591&quot; data-start=&quot;1569&quot;&gt;실제로 동일한 결과가 재현되는지 확인&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1635&quot; data-start=&quot;1593&quot; data-ke-size=&quot;size16&quot;&gt;머신러닝의 Train/Test 데이터 분리 역시 같은 개념으로 볼 수 있다.&lt;/p&gt;
&lt;h2 data-end=&quot;1659&quot; data-start=&quot;1642&quot; data-ke-size=&quot;size26&quot;&gt;&amp;nbsp;&lt;/h2&gt;
&lt;h3 data-end=&quot;1659&quot; data-start=&quot;1642&quot; data-ke-size=&quot;size23&quot;&gt;&lt;b&gt;재현성을 높이기 위한 방법&lt;/b&gt;&lt;/h3&gt;
&lt;p data-end=&quot;1679&quot; data-start=&quot;1661&quot; data-ke-size=&quot;size16&quot;&gt;✔ 가설을 사전에 명확히 설정하기&lt;/p&gt;
&lt;p data-end=&quot;1702&quot; data-start=&quot;1681&quot; data-ke-size=&quot;size16&quot;&gt;✔ 모든 분석 결과를 투명하게 공개하기&lt;/p&gt;
&lt;p data-end=&quot;1723&quot; data-start=&quot;1704&quot; data-ke-size=&quot;size16&quot;&gt;✔ 데이터 수집 계획을 미리 정하기&lt;/p&gt;
&lt;p data-end=&quot;1768&quot; data-start=&quot;1725&quot; data-ke-size=&quot;size16&quot;&gt;✔ p-value만 보지 않고 효과크기(Effect Size)도 함께 확인하기&lt;/p&gt;
&lt;p data-end=&quot;1794&quot; data-start=&quot;1770&quot; data-ke-size=&quot;size16&quot;&gt;✔ 탐색용 데이터와 검증용 데이터를 분리하기&lt;/p&gt;
&lt;p data-end=&quot;1844&quot; data-start=&quot;1796&quot; data-ke-size=&quot;size16&quot;&gt;✔ 다중 검정을 수행할 경우 보정(Bonferroni Correction 등) 적용하기&lt;/p&gt;</description>
      <category>내일배움 본캠프</category>
      <category>p-해킹</category>
      <category>Til</category>
      <category>검증</category>
      <category>결정계수</category>
      <category>선택적 보고</category>
      <category>재현성</category>
      <category>탐색</category>
      <author>hyeon-ji</author>
      <guid isPermaLink="true">https://hyeon-ji.tistory.com/42</guid>
      <comments>https://hyeon-ji.tistory.com/42#entry42comment</comments>
      <pubDate>Tue, 23 Jun 2026 20:57:19 +0900</pubDate>
    </item>
    <item>
      <title>[내일배움 본캠프] 통계를 이용한 데이터 분석</title>
      <link>https://hyeon-ji.tistory.com/41</link>
      <description>&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;☆ To Do List ☆&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;AI 진단퀴즈&lt;/li&gt;
&lt;li&gt;라이브세션 수강(11:00, 19:30)&lt;/li&gt;
&lt;li&gt;기초 통계 챕터 5수강&lt;/li&gt;
&lt;li&gt;머신러닝 기초 완강하기&lt;/li&gt;
&lt;li&gt;자소서 작성&lt;/li&gt;
&lt;li&gt;TIL 작성 및 제출&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;font-family: AppleSDGothicNeo-Regular, 'Malgun Gothic', '맑은 고딕', dotum, 돋움, sans-serif;&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt; &lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;font-family: AppleSDGothicNeo-Regular, 'Malgun Gothic', '맑은 고딕', dotum, 돋움, sans-serif;&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt;&lt;span&gt;&amp;nbsp;에이타니&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #2e2f36; text-align: start;&quot;&gt;● RMSE(Root Mean Squared Error)&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #2e2f36; text-align: start;&quot;&gt;MSE의 제곱근(square root)을 취한 값을 말한다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #2e2f36; text-align: start;&quot;&gt;MSE와 달리 원래 데이터와 동일한 단위를 가지므로 해석이 더 직관적이다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;파이썬 코드 : &lt;span style=&quot;color: #2e2f36; text-align: start;&quot;&gt;np.sqrt(mse)&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt; 기초통계&lt;/span&gt;&lt;/h4&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;1. 데이터 분석의 전체 흐름&lt;/b&gt;&lt;/h4&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1693&quot; data-origin-height=&quot;929&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/rvU1l/dJMcad3tUaN/nswwfGxmkAt6ttOKqtVXa0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/rvU1l/dJMcad3tUaN/nswwfGxmkAt6ttOKqtVXa0/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/rvU1l/dJMcad3tUaN/nswwfGxmkAt6ttOKqtVXa0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FrvU1l%2FdJMcad3tUaN%2FnswwfGxmkAt6ttOKqtVXa0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;578&quot; height=&quot;929&quot; data-origin-width=&quot;1693&quot; data-origin-height=&quot;929&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;2. 모수검정과 비모수검정&lt;/b&gt;&lt;/h4&gt;
&lt;table style=&quot;border-collapse: collapse; width: 71.6279%; height: 186px;&quot; border=&quot;1&quot; data-ke-align=&quot;alignLeft&quot; data-ke-style=&quot;style12&quot;&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 21.1648%; text-align: center;&quot;&gt;구분&lt;/td&gt;
&lt;td style=&quot;width: 36.1414%; text-align: center;&quot;&gt;모수검정&lt;/td&gt;
&lt;td style=&quot;width: 42.6937%; text-align: center;&quot;&gt;비모수검정&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 21.1648%; text-align: center;&quot;&gt;전제 조건&lt;/td&gt;
&lt;td style=&quot;width: 36.1414%; text-align: center;&quot;&gt;정규성 만족&lt;/td&gt;
&lt;td style=&quot;width: 42.6937%; text-align: center;&quot;&gt;정규성 불필요&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 21.1648%; text-align: center;&quot;&gt;비교 기준&lt;/td&gt;
&lt;td style=&quot;width: 36.1414%; text-align: center;&quot;&gt;평균&lt;/td&gt;
&lt;td style=&quot;width: 42.6937%; text-align: center;&quot;&gt;순위(Rank), 중앙값&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 21.1648%; text-align: center;&quot;&gt;대표 검정&lt;/td&gt;
&lt;td style=&quot;width: 36.1414%; text-align: center;&quot;&gt;t-test, ANOVA&lt;/td&gt;
&lt;td style=&quot;width: 42.6937%; text-align: center;&quot;&gt;Mann-Whitney, Wilcoxon, Kruskal-Wallis&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 21.1648%; text-align: center;&quot;&gt;사용 상황&lt;/td&gt;
&lt;td style=&quot;width: 36.1414%; text-align: center;&quot;&gt;연속형 데이터&lt;/td&gt;
&lt;td style=&quot;width: 42.6937%; text-align: center;&quot;&gt;순위형, 비정규 데이터&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;☞ 비모수 검정&lt;/p&gt;
&lt;table id=&quot;3822dc3e-f514-801b-a1e0-ec25730e0ec6&quot; style=&quot;border-collapse: collapse; width: 52.3256%; height: 160px;&quot; border=&quot;1&quot; data-ke-align=&quot;alignLeft&quot; data-ke-style=&quot;style4&quot;&gt;
&lt;tbody&gt;
&lt;tr id=&quot;fdc2dc3e-f514-8318-8323-8146ea80a6a0&quot;&gt;
&lt;td id=&quot;D&amp;#96;Qs&quot; style=&quot;text-align: center;&quot;&gt;검정명&lt;/td&gt;
&lt;td id=&quot;csZS&quot; style=&quot;text-align: center;&quot;&gt;비교 대상&lt;/td&gt;
&lt;td id=&quot;oidw&quot; style=&quot;text-align: center;&quot;&gt;사용 예시&lt;/td&gt;
&lt;/tr&gt;
&lt;tr id=&quot;b8b2dc3e-f514-8212-b931-8192780f5456&quot;&gt;
&lt;td id=&quot;D&amp;#96;Qs&quot; style=&quot;text-align: center;&quot;&gt;&lt;b&gt;Mann-Whitney U Test&lt;/b&gt;&lt;/td&gt;
&lt;td id=&quot;csZS&quot; style=&quot;text-align: center;&quot;&gt;독립 2집단&lt;/td&gt;
&lt;td id=&quot;oidw&quot; style=&quot;text-align: center;&quot;&gt;남녀 만족도 비교&lt;/td&gt;
&lt;/tr&gt;
&lt;tr id=&quot;7dc2dc3e-f514-8341-81c7-8158264e4a70&quot;&gt;
&lt;td id=&quot;D&amp;#96;Qs&quot; style=&quot;text-align: center;&quot;&gt;&lt;b&gt;Wilcoxon Test&lt;/b&gt;&lt;/td&gt;
&lt;td id=&quot;csZS&quot; style=&quot;text-align: center;&quot;&gt;대응 2집단&lt;/td&gt;
&lt;td id=&quot;oidw&quot; style=&quot;text-align: center;&quot;&gt;교육 전후 점수 비교&lt;/td&gt;
&lt;/tr&gt;
&lt;tr id=&quot;53d2dc3e-f514-82db-b176-011ba056c88b&quot;&gt;
&lt;td id=&quot;D&amp;#96;Qs&quot; style=&quot;text-align: center;&quot;&gt;&lt;b&gt;Kruskal-Wallis Test&lt;/b&gt;&lt;/td&gt;
&lt;td id=&quot;csZS&quot; style=&quot;text-align: center;&quot;&gt;독립 3집단 이상&lt;/td&gt;
&lt;td id=&quot;oidw&quot; style=&quot;text-align: center;&quot;&gt;공정 A/B/C 생산량 비교&lt;/td&gt;
&lt;/tr&gt;
&lt;tr id=&quot;bba2dc3e-f514-8346-881c-01d3da49ae71&quot;&gt;
&lt;td id=&quot;D&amp;#96;Qs&quot; style=&quot;text-align: center;&quot;&gt;&lt;b&gt;Chi-square Test&lt;/b&gt;&lt;/td&gt;
&lt;td id=&quot;csZS&quot; style=&quot;text-align: center;&quot;&gt;범주형 독립성&lt;/td&gt;
&lt;td id=&quot;oidw&quot; style=&quot;text-align: center;&quot;&gt;성별 vs 과목 선호&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&amp;nbsp;&lt;/h4&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;3. 정규성 검정&lt;/b&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;rarr; 모수검정을 수행하기 위해서는 데이터가 '정규분포'를 따르는지 확인해야 한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;● &lt;b&gt;Shapiro-Wilk Test&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;가장 널리 사용되는 정규정 검정 방법&lt;/li&gt;
&lt;li&gt;표본 수가 적어도 사용 가능하다&lt;/li&gt;
&lt;li&gt;귀무가설 : 데이터는 정규분포를 따른다&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;☞ 해석&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;p &amp;gt; 0.05 &amp;rarr; 정규성을 만족함&lt;/li&gt;
&lt;li&gt;p &amp;lt; 0.05 &amp;rarr; 정규성을 &lt;b&gt;만족하지 않음 &amp;rarr; 비모수 검정 사용&lt;/b&gt; &lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;● &lt;b&gt;Q-Q Plot(Quantile-Quantile Plot)&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;데이터가 정규분포를 따르는지를 시각적으로 확인하는 방법&lt;/li&gt;
&lt;li&gt;데이터 점들이 &lt;b&gt;직선에 가깝게 위치하면 정규성 가정이 만족&lt;/b&gt;&lt;/li&gt;
&lt;li&gt;선에서 &lt;b&gt;멀리 떨어진 점이 많다면 정규성 위배&lt;/b&gt; 가능성이 있다&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;4. t-test&lt;/b&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&amp;rarr;&lt;span&gt; &lt;span data-token-index=&quot;0&quot;&gt;세 개 이상&lt;/span&gt;의 집단(그룹) 간의 &lt;span data-token-index=&quot;2&quot;&gt;평균&lt;/span&gt;에 통계적으로 유의미한 차이가 있는지를 검증하는 데 사용되는 통계 기법&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;table style=&quot;border-collapse: collapse; width: 76.3953%; height: 109px;&quot; border=&quot;1&quot; data-ke-align=&quot;alignLeft&quot; data-ke-style=&quot;style12&quot;&gt;
&lt;tbody&gt;
&lt;tr style=&quot;height: 19px;&quot;&gt;
&lt;td style=&quot;width: 17.8463%; text-align: center; height: 19px;&quot;&gt;비고&lt;/td&gt;
&lt;td style=&quot;width: 27.8919%; text-align: center; height: 19px;&quot;&gt;단일표본 t-test&lt;/td&gt;
&lt;td style=&quot;width: 27.7397%; text-align: center; height: 19px;&quot;&gt;&lt;span style=&quot;color: #ffffff;&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;대응표본&amp;nbsp;&lt;/span&gt;t-test&lt;/span&gt;&lt;/td&gt;
&lt;td style=&quot;width: 26.5221%; text-align: center; height: 19px;&quot;&gt;독립표본 t-test&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 19px;&quot;&gt;
&lt;td style=&quot;width: 17.8463%; text-align: center; height: 19px;&quot;&gt;사용 상황&lt;/td&gt;
&lt;td style=&quot;width: 27.8919%; text-align: center; height: 19px;&quot;&gt;기준값과 비교&lt;/td&gt;
&lt;td style=&quot;width: 27.7397%; text-align: center; height: 19px;&quot;&gt;같은 집단 전후 비교&lt;/td&gt;
&lt;td style=&quot;width: 26.5221%; text-align: center; height: 19px;&quot;&gt;서로 다른 두 집단 비교&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 38px;&quot;&gt;
&lt;td style=&quot;width: 17.8463%; text-align: center; height: 38px;&quot;&gt;예시&lt;/td&gt;
&lt;td style=&quot;width: 27.8919%; text-align: center; height: 38px;&quot;&gt;현재 공정 온도가 기준 온도와 다른가?&lt;/td&gt;
&lt;td style=&quot;width: 27.7397%; text-align: center; height: 38px;&quot;&gt;설비 교체 전후 불량률 차이가 있는가?&lt;/td&gt;
&lt;td style=&quot;width: 26.5221%; text-align: center; height: 38px;&quot;&gt;A라인과 B라인 제품 품질 차이가 있는가?&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;5. ANOVA(분산분석)&lt;/b&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;rarr; 분산분석(Analysis of Variance, ANOVA)은 &lt;span data-token-index=&quot;1&quot;&gt;세 개 이상&lt;/span&gt;의 집단(그룹) 간의 &lt;span data-token-index=&quot;3&quot;&gt;평균&lt;/span&gt;에 통계적으로 유의미한 차이가 있는지를 검증하는 데 사용되는 통계 기법&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;b&gt;집단 간 분산 (Between-group variance):&lt;/b&gt; 각 그룹의 평균이 전체 데이터의 평균과 얼마나 다른지 나타낸다. (그룹 간 차이가 클수록 이 분산이 커짐), 그룹 평균들 사이의 &quot;차이&quot;를 설명한다.&lt;/li&gt;
&lt;li&gt;&lt;b&gt;집단 내 분산 (Within-group variance):&lt;/b&gt; 각 그룹 내부의 데이터가 얼마나 흩어져 있는지 나타낸다. (그룹 내 데이터가 비슷할수록 이 분산이 작아짐), 같은 그룹 안에서의 &quot;오차&quot;나 &quot;잡음&quot;을 설명한다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;● &lt;b&gt;기본 가정&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&amp;rarr;&lt;span&gt; 정규성, 독립성, 등분산성을 만족해야지 ANOVA분석 사용이 가능하다.&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;●&lt;b&gt;&lt;span&gt; &lt;span data-token-index=&quot;0&quot;&gt;F-값 (F-statistic)&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;332&quot; data-origin-height=&quot;124&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/mKWZM/dJMcabLuSr2/2lHNNrTkxOEkZCqIudQUY0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/mKWZM/dJMcabLuSr2/2lHNNrTkxOEkZCqIudQUY0/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/mKWZM/dJMcabLuSr2/2lHNNrTkxOEkZCqIudQUY0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FmKWZM%2FdJMcabLuSr2%2F2lHNNrTkxOEkZCqIudQUY0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;217&quot; height=&quot;81&quot; data-origin-width=&quot;332&quot; data-origin-height=&quot;124&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;F-값이 &lt;b&gt;크다&lt;/b&gt; &amp;rarr; 집단 간 차이가 집단 내 변동보다 크므로,&amp;nbsp;&lt;b&gt;그룹 간 평균 차이가 통계적으로 유의하다&lt;/b&gt;&lt;/li&gt;
&lt;li&gt;F-값이 &lt;b&gt;작다&lt;/b&gt; &amp;rarr; 그룹 간 평균 차이가 크지 않으며, 집단 내의 오차에 비해 뚜렷한 차이가 없으므로, &lt;b&gt;유의미한 차이가 없다&lt;/b&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;6. 상관분석&lt;/span&gt;&lt;/b&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&amp;rarr;&lt;span&gt;&amp;nbsp;두 변수 간 관계를 확인하는 방법&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;● 공분산&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;rarr; 두 변수가 함께 움직이는 정도, 단위의 영향을 받는다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;● 상관계수&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;rarr; 공분산을 표준화한 값. -1 ~ 1 사이의 값을 가진다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;○ 상관계수 종류&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;▷ 모수 상관계수&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;☞ &lt;b&gt;Pearson&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;선형적인 관계가 예상될 때 사용한다&lt;/li&gt;
&lt;li&gt;비선형 관계에서는 사용할 수 없다&lt;/li&gt;
&lt;li&gt;연속형과 정규성을 만족할 때 사용 가능하다&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;▷ 비모수 상관계수&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;데이터가 &lt;span style=&quot;color: #ee2323;&quot;&gt;&lt;b&gt;정규분포를 따르지 않거나&lt;/b&gt;&lt;/span&gt; 변수들이 &lt;b&gt;순서형 데이터&lt;/b&gt;일 때 사용하는 상관계수&lt;/li&gt;
&lt;li&gt;데이터의 &lt;b&gt;분포에 대한 가정 없이&lt;/b&gt; 두 변수 간의 상관관계를 측정할 때 사용한다&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;350&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bU89aM/dJMcaaMvDUU/CqoCa6tOMt7b1Rps7qADak/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bU89aM/dJMcaaMvDUU/CqoCa6tOMt7b1Rps7qADak/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bU89aM/dJMcaaMvDUU/CqoCa6tOMt7b1Rps7qADak/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbU89aM%2FdJMcaaMvDUU%2FCqoCa6tOMt7b1Rps7qADak%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1280&quot; height=&quot;350&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;350&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;☞ &lt;b&gt;Spearman&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;두 변수의 순위 간의 일관성을 측정&lt;/li&gt;
&lt;li&gt;순위형 또는 비정규 데이터인 경우 사용 가능하다&lt;/li&gt;
&lt;li&gt;켄달의 타우 상관계수 보다 데이터 내 편차와 에러에 민감&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;☞ &lt;b&gt;Kendall Tau&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;순위 간의 일치 쌍 및 불일치 쌍의 비율을 바탕으로 계산&lt;/li&gt;
&lt;li&gt;소규모 순위 데이터인 경우 사용 가능하다&lt;/li&gt;
&lt;li&gt;예를들어 사람의 키와 몸무게에 대해 상관계수를 알고자 할 때 키가 크고 몸무게도 더 나가면 일치 쌍에 해당, 키가 크지만 몸무게가 더 적으면 불일치 쌍에 해당 이들의 개수 비율로 상관계수를 결정&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;○&lt;span&gt;&amp;nbsp;&lt;/span&gt;모수 &amp;amp; 비모수 공통점과 차이점&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;☞ 공통점 : 상관계수 값은 -1 ~ 1사이의 값을 가진다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;☞&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;차이점 : 데이터가 연속성에 차이가 있다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;▷ 상호정보 상관계수&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;rarr; 숫자로 이루어지지 않은 범주형일 때나 숫자로 이루어져 있는 데이터나 모든 상황에서 상호 정보량 계산 가&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;능하다&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #f6e199;&quot;&gt;※ 상관관계는 인과관계와 같지 않다. '온도가 증가할수록 불량률 증가'라는 상관관계 결과가 나왔다고 해서, '온도가 불량을 발생시킨다'로 단정할 수는 없다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;7. 회귀분석&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&amp;rarr;&lt;span&gt; 어떤 변수가 결과에 얼마나 영향을 주는지 분석하는 방법&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;●&lt;span&gt;&amp;nbsp;회귀모형 평가 지표&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;☞&lt;span&gt; R&amp;sup2; : 범위 0~1사이에서 표현되며, 회귀모형이 종속변수를 얼마나 설명하는지를 나타낸다. 값이 클수록 좋은 모델&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;☞&lt;span&gt; Adjusted R&amp;sup2; : 독립변수 개수를 고려한 평가지표이며, 변수가 많아질수록 값이 무조건 증가하므로 보정하기 위해 사용한다&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;☞&lt;span&gt; F-test : 회귀모형 전체의 유의성을 확인하기 위해 사용한다&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;☞&lt;span&gt; t-test : 각 독립변수의 유의성을 확인하기 위해 사용한다&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&lt;span&gt;8. 다중공선성&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;rarr;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&lt;span&gt; 독립변수들끼리 높은 상관관계를 가지게 될 시 발생하는 문제점이다.&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1024&quot; data-origin-height=&quot;1536&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/CwvsR/dJMcadicoEN/qaXut0jNcoCx2ECYKQquYK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/CwvsR/dJMcadicoEN/qaXut0jNcoCx2ECYKQquYK/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/CwvsR/dJMcadicoEN/qaXut0jNcoCx2ECYKQquYK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FCwvsR%2FdJMcadicoEN%2FqaXut0jNcoCx2ECYKQquYK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1024&quot; height=&quot;1536&quot; data-origin-width=&quot;1024&quot; data-origin-height=&quot;1536&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;</description>
      <category>내일배움 본캠프</category>
      <category>Til</category>
      <category>모수검정</category>
      <category>분산분석</category>
      <category>상관계수</category>
      <category>정규성 검정</category>
      <category>회귀분석</category>
      <author>hyeon-ji</author>
      <guid isPermaLink="true">https://hyeon-ji.tistory.com/41</guid>
      <comments>https://hyeon-ji.tistory.com/41#entry41comment</comments>
      <pubDate>Mon, 22 Jun 2026 20:43:19 +0900</pubDate>
    </item>
    <item>
      <title>[내일배움 본캠프] 가설검증(통계)</title>
      <link>https://hyeon-ji.tistory.com/40</link>
      <description>&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;☆ To Do List ☆&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;AI에이타니&lt;/li&gt;
&lt;li&gt;통계학 기초 챕터 3, 4 수강&lt;/li&gt;
&lt;li&gt;머신러닝 기초 1-13까지 수강하기&lt;/li&gt;
&lt;li&gt;라이브세션(11:00, 19:30)&lt;/li&gt;
&lt;li&gt;공고 찾아보기&lt;/li&gt;
&lt;li&gt;TIL 작성 및 제출&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;font-family: AppleSDGothicNeo-Regular, 'Malgun Gothic', '맑은 고딕', dotum, 돋움, sans-serif;&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt; &lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;font-family: AppleSDGothicNeo-Regular, 'Malgun Gothic', '맑은 고딕', dotum, 돋움, sans-serif;&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt;&lt;span&gt;&amp;nbsp;에이타니&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;Q. Python에서 시계열 분해(Time Series Decomposition)를 수행하는 코드, &lt;/span&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;가법 모델을 사용하여 시계열을 Trend + Seasonality + Residual로 분해하고자 할 때, 빈칸에 들어갈 값은?&lt;/span&gt;&lt;/p&gt;
&lt;pre id=&quot;code_1781869629621&quot; class=&quot;bash&quot; data-ke-language=&quot;bash&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;from statsmodels.tsa.seasonal import seasonal_decompose
import pandas as pd

# 시계열 데이터 생성
data = pd.Series([100, 120, 130, 110, 105, 125, 135, 115], 
                 index=pd.date_range('2023-01', periods=8, freq='M'))

# 시계열 분해
result = seasonal_decompose(data, model='________', period=4)&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;rarr; &lt;span style=&quot;color: #2e2f36; text-align: start;&quot;&gt;시계열 분해 모델에는 가법 모델(additive)과 승법 모델(multiplicative) 두 가지가 있습니다. 가법 모델은 시계열을 Trend + Seasonality + Residual로 분해하며, 계절 변동의 크기가 일정할 때 사용한다. 승법 모델은 Trend &amp;times; Seasonality &amp;times; Residual로 분해하며, 계절 변동의 크기가 Trend에 비례할 때 사용한다. 따라서 가법 모델을 사용하려면 &lt;span style=&quot;color: #ee2323;&quot;&gt;'additive'&lt;/span&gt;를 입력해야 한다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt; 기초통계&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;● 6Sigma란?&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;rarr; 전사적(품질, 생산 뿐만 아니라 구매, 물류, 마케팅 등) 경영혁신활동&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;rarr; 정규분포를 따른다는 가정하에 이루어짐&lt;/p&gt;
&lt;table style=&quot;border-collapse: collapse; width: 68.8372%; height: 208px;&quot; border=&quot;1&quot; data-ke-align=&quot;alignLeft&quot; data-ke-style=&quot;style12&quot;&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 20.6081%; text-align: center;&quot;&gt;&amp;sigma;수준&lt;/td&gt;
&lt;td style=&quot;width: 24.4933%; text-align: center;&quot;&gt;불량률(ppm)&lt;/td&gt;
&lt;td style=&quot;width: 29.8986%; text-align: center;&quot;&gt;품질비용(매출액 대비)&lt;/td&gt;
&lt;td style=&quot;width: 25%; text-align: center;&quot;&gt;비고&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 20.6081%; text-align: center;&quot;&gt;6&amp;sigma;&lt;/td&gt;
&lt;td style=&quot;width: 24.4933%; text-align: center;&quot;&gt;3.4&lt;/td&gt;
&lt;td style=&quot;width: 29.8986%; text-align: center;&quot;&gt;1%&lt;/td&gt;
&lt;td style=&quot;width: 25%; text-align: center;&quot;&gt;세계최고 수준&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 20.6081%; text-align: center;&quot;&gt;5&amp;sigma;&lt;/td&gt;
&lt;td style=&quot;width: 24.4933%; text-align: center;&quot;&gt;233&lt;/td&gt;
&lt;td style=&quot;width: 29.8986%; text-align: center;&quot;&gt;5 ~ 10%&lt;/td&gt;
&lt;td style=&quot;width: 25%; text-align: center;&quot;&gt;우량 수준&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 20.6081%; text-align: center;&quot;&gt;4&amp;sigma;&lt;/td&gt;
&lt;td style=&quot;width: 24.4933%; text-align: center;&quot;&gt;6,210&lt;/td&gt;
&lt;td style=&quot;width: 29.8986%; text-align: center;&quot;&gt;10 ~ 15%&lt;/td&gt;
&lt;td style=&quot;width: 25%; text-align: center;&quot;&gt;우량 수준&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 20.6081%; text-align: center;&quot;&gt;3&amp;sigma;&lt;/td&gt;
&lt;td style=&quot;width: 24.4933%; text-align: center;&quot;&gt;66,807&lt;/td&gt;
&lt;td style=&quot;width: 29.8986%; text-align: center;&quot;&gt;20 ~ 30%&lt;/td&gt;
&lt;td style=&quot;width: 25%; text-align: center;&quot;&gt;일반 수준&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 20.6081%; text-align: center;&quot;&gt;2&amp;sigma;&lt;/td&gt;
&lt;td style=&quot;width: 24.4933%; text-align: center;&quot;&gt;308,537&lt;/td&gt;
&lt;td style=&quot;width: 29.8986%; text-align: center;&quot;&gt;30 ~ 40%&lt;/td&gt;
&lt;td style=&quot;width: 25%; text-align: center;&quot;&gt;일반 수준&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;○ 6Sigma 추진방법&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: circle;&quot; data-ke-list-type=&quot;circle&quot;&gt;
&lt;li&gt;D(Define) : 과제 선정, 과제 정의, 과제 승인&lt;/li&gt;
&lt;li&gt;M(Measure) : 프로젝트 정의, 현수준 파악, 목표 설정, 잠재 X 도출&lt;/li&gt;
&lt;li&gt;A(Analyze) : 분석 계획, 분석 실시, 핵심 X 도출&lt;/li&gt;
&lt;li&gt;I(Improve) : 사건계획, 아이디어 도출, 개선 최적화, 개선안 실행&lt;/li&gt;
&lt;li&gt;C(Control) : 관리계획 수립, 관리 실행, 승인/확산&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;● 공정능력이란?&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;공정 혹은 프로세스가 얼마나 균일한 품질의 제품 혹은 서비스를 산출할 수 있는지의 능력&lt;/li&gt;
&lt;li&gt;공정이 정상적인 관리 상태에 있을 때 그 공정에서 생산되는 제품의 품질 변동이 어느 정도인가를 나타내는 양으로 평가&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;background-color: #f6e199;&quot;&gt;&amp;sigma;수준 = % = ppm =&amp;nbsp;Cp&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;○ 공정능력지수(Cp)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;rarr; 규격의 폭과 공정의 산포를 비교하는 척도&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;428&quot; data-origin-height=&quot;182&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/1xOv8/dJMcacXPipm/wYOaryPCApUaNIUJsbLA51/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/1xOv8/dJMcacXPipm/wYOaryPCApUaNIUJsbLA51/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/1xOv8/dJMcacXPipm/wYOaryPCApUaNIUJsbLA51/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2F1xOv8%2FdJMcacXPipm%2FwYOaryPCApUaNIUJsbLA51%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;322&quot; height=&quot;137&quot; data-origin-width=&quot;428&quot; data-origin-height=&quot;182&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;☞&lt;b&gt; 해석&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Cp가 1.0 미만이면 공정이 지나치게 흔들리며 사양에 맞지 않음&lt;/li&gt;
&lt;li&gt;Cp는 높지만 Cpk가 낮다면? &amp;rarr; 공정은 정밀하지만 평균이 한쪽으로 치우침&lt;/li&gt;
&lt;li&gt;Cp &amp;asymp; Cpk &amp;rarr; 공정 중심이 사양 중앙에 잘 위치함&lt;/li&gt;
&lt;li&gt;Cp 또는 Cpk &amp;lt; 1.0: 불량률 높음&lt;/li&gt;
&lt;li&gt;Cp = 1.33 이상: 적정 수준&lt;/li&gt;
&lt;li&gt;Cp = 2.0 이상: 식스시그마 수준&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span data-token-index=&quot;0&quot;&gt;○&lt;span&gt;&amp;nbsp;&lt;/span&gt;공정 성능 지수(Cpk)&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;rarr; 규격중심과 공정평균이 일치하지 않을 경우 사용&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;784&quot; data-origin-height=&quot;188&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bp3iVj/dJMcadCkbMt/WxtHe6lRwgCDB8iaYHaQ5k/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bp3iVj/dJMcadCkbMt/WxtHe6lRwgCDB8iaYHaQ5k/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bp3iVj/dJMcadCkbMt/WxtHe6lRwgCDB8iaYHaQ5k/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fbp3iVj%2FdJMcadCkbMt%2FWxtHe6lRwgCDB8iaYHaQ5k%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;550&quot; height=&quot;132&quot; data-origin-width=&quot;784&quot; data-origin-height=&quot;188&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;☞&lt;span&gt;&amp;nbsp;&lt;/span&gt;해석&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Cpk &amp;gt; 1.33 &amp;rarr; 안정적이고 중심 정렬된 공정&lt;/li&gt;
&lt;li&gt;Cp &amp;gt; 1.33, Cpk &amp;lt; 1 &amp;rarr; 정밀하나 중심이 어긋난 공정&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;● 측정시스템 분석(MSA;Measurement System Analysis)&lt;/b&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;2040&quot; data-origin-height=&quot;1363&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bHdo0m/dJMcahY7eho/pAMllxJuEg3hf3KjpbcOhk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bHdo0m/dJMcahY7eho/pAMllxJuEg3hf3KjpbcOhk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bHdo0m/dJMcahY7eho/pAMllxJuEg3hf3KjpbcOhk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbHdo0m%2FdJMcahY7eho%2FpAMllxJuEg3hf3KjpbcOhk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;550&quot; height=&quot;367&quot; data-origin-width=&quot;2040&quot; data-origin-height=&quot;1363&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;rarr; 데이터의 신뢰성을 확보하기 위해 측정시스템을 평가, 검증하는 과정이 필요하다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;rarr; 개선 대상 프로세스의 현재 능력을 파악하기 위한 데이터 수집에 앞서, 먼저 데이터가 믿을 수 있는지 확인해야 한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;b&gt;정확성&lt;/b&gt; : 실제 평균과 측정값의 평균간의 차이를 의미하며, 그 차(bias)가 작을수록 좋다.&lt;/li&gt;
&lt;li&gt;&lt;b&gt;안정성&lt;/b&gt; : 시간의 변화에 따은 계측결과의 변이&lt;/li&gt;
&lt;li&gt;&lt;b&gt;선형성&lt;/b&gt; : 측정 범위 전체에 있어 측정 시스템의 일관성&lt;/li&gt;
&lt;li&gt;&lt;b&gt;반복성&lt;/b&gt; : 한 사람의 측정자가 동일한 측정기로 동일한 대상을 동일한 측정 과정을 사용하여 반복해서 측정할 때 발생하는 산포&lt;/li&gt;
&lt;li&gt;&lt;b&gt;재현성&lt;/b&gt; : 두 명 이상의 측정자가 동일한 측정기로 동일 대상을 반복해서 측정할 때 발생하는 평균의 차이&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;○ Gage R&amp;amp;R&lt;/b&gt; : 실세 프로세스의 변동을 파악하기 위해 측정 시스템 변동을 먼저 파악하여 공정 중 발생되는 다른 변동과 분리 하고자 하는, 측정시스템 분석 / 재현성과 반복성을 확인하기 위해 사용되는 분석이다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;● 정규화와 표준화의 차이&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;b&gt;정규화&lt;/b&gt; : 값을 특정 범위로 변환(0 ~ 1)&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;434&quot; data-origin-height=&quot;142&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bdjU2Q/dJMcaicJN55/u37ueFMHC23skawjMuzpfK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bdjU2Q/dJMcaicJN55/u37ueFMHC23skawjMuzpfK/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bdjU2Q/dJMcaicJN55/u37ueFMHC23skawjMuzpfK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbdjU2Q%2FdJMcaicJN55%2Fu37ueFMHC23skawjMuzpfK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;293&quot; height=&quot;96&quot; data-origin-width=&quot;434&quot; data-origin-height=&quot;142&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;b&gt;표준화&lt;/b&gt; : 평균과 표준편차를 이용하여 변환(평균 0, 표준편차 1)&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;228&quot; data-origin-height=&quot;118&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/boiW8z/dJMcaicJOaj/XKZsjZ7gbj3ZK4ikRdwJFk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/boiW8z/dJMcaicJOaj/XKZsjZ7gbj3ZK4ikRdwJFk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/boiW8z/dJMcaicJOaj/XKZsjZ7gbj3ZK4ikRdwJFk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FboiW8z%2FdJMcaicJOaj%2FXKZsjZ7gbj3ZK4ikRdwJFk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;184&quot; height=&quot;95&quot; data-origin-width=&quot;228&quot; data-origin-height=&quot;118&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;&lt;b&gt;●&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/b&gt;가설검정 절차&lt;/b&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1872&quot; data-origin-height=&quot;346&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/Q7xA8/dJMcaaZ0lcm/YXuaHwktKOskwbcLTIFJyk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/Q7xA8/dJMcaaZ0lcm/YXuaHwktKOskwbcLTIFJyk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/Q7xA8/dJMcaaZ0lcm/YXuaHwktKOskwbcLTIFJyk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FQ7xA8%2FdJMcaaZ0lcm%2FYXuaHwktKOskwbcLTIFJyk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;682&quot; height=&quot;126&quot; data-origin-width=&quot;1872&quot; data-origin-height=&quot;346&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;b&gt;귀무가설(H0)&lt;/b&gt; : 일반적으로 과거 이론이나 경험적으로 '참'이라고 믿어지는 가설&lt;/li&gt;
&lt;li&gt;&lt;b&gt;대립가설(H1)&lt;/b&gt; : 귀무가설과 다른(혹은 상반된) 입장&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;b&gt;검정통계량&lt;/b&gt; : 귀무가설을 검정하기(채택 or 기각) 위해 사용되는 통계량&amp;nbsp;&lt;/li&gt;
&lt;li&gt;&lt;b&gt;유의수준&lt;/b&gt; : 귀무가설이 참일 때 귀무가설을 기각할 확률(&amp;alpha;)&lt;/li&gt;
&lt;li&gt;&lt;b&gt;임곗값 or 기각치&lt;/b&gt; : 귀무가설을 기각할지 기각하지 않을지 기준이 되는 값&lt;/li&gt;
&lt;li&gt;&lt;b&gt;기각역&lt;/b&gt; : 귀무가설이 기각되는 영역(넓이 &amp;alpha;)&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;● 가설검정 종류&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;b&gt;z-검정 : &lt;/b&gt;모집단의 &lt;span data-token-index=&quot;1&quot;&gt;표준편차를 알고 있고&lt;/span&gt;, 표본 수가 &lt;span data-token-index=&quot;3&quot;&gt;충분히 많을 때(n &amp;ge; 30)&lt;/span&gt; 사용하는 &lt;span data-token-index=&quot;5&quot;&gt;평균 차이 검정 방법&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;pre id=&quot;code_1781867194655&quot; class=&quot;bash&quot; data-ke-language=&quot;bash&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;# 단일표본 z-test
import numpy as np
from scipy.stats import norm

# 샘플 데이터
sample = [50.1, 50.3, 50.2, 50.4, 50.0, 50.5, 50.3, 50.2, 50.1, 50.4,
          50.3, 50.2, 50.5, 50.6, 50.2, 50.1, 50.4, 50.3, 50.2, 50.3,
          50.2, 50.1, 50.0, 50.4, 50.2, 50.1, 50.3, 50.5, 50.1, 50.3,
          50.2, 50.3, 50.4, 50.2, 50.1, 50.0, 50.2, 50.3, 50.4, 50.2]

# 기본 통계
sample_mean = np.mean(sample)
population_mean = 50        # 기준값
population_std = 0.5        # 모집단 표준편차 (알고 있어야 z-test 가능)
n = len(sample)

# Z 검정 통계량 계산
z_stat = (sample_mean - population_mean) / (population_std / np.sqrt(n))
p_value = 2 * (1 - norm.cdf(abs(z_stat)))  # 양측 검정

print(f&quot;Z-statistic: {z_stat:.3f}&quot;)
print(f&quot;Two-tailed p-value: {p_value:.4f}&quot;)

# p-value &amp;lt; 0.05: 차이가 통계적으로 유의미 &amp;rarr; 평균이 기준값과 다르다.
# p-value &amp;ge; 0.05: 차이가 우연일 수 있음 &amp;rarr; 평균 차이가 유의하지 않다.&lt;/code&gt;&lt;/pre&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;b&gt;t-검정 &lt;/b&gt;: 두 집단 간의 평균 차이가 통계적으로 유의미한지 확인하는 검정 방법&lt;/li&gt;
&lt;/ul&gt;
&lt;pre id=&quot;code_1781866045279&quot; class=&quot;bash&quot; data-ke-language=&quot;bash&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;# 학생 점수 데이터
scores_method1 = np.random.normal(70, 10, 30)
scores_method2 = np.random.normal(75, 10, 30)

# 독립표본 t검정
t_stat, p_val = stats.ttest_ind(scores_method1, scores_method2)
print(f&quot;T-Statistic: {t_stat}, P-value: {p_val}&quot;)&lt;/code&gt;&lt;/pre&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;b&gt;카이제곱 검정&lt;/b&gt; : 범주형 데이터의 표본 분포가 모집단 분포와 일치하는지 검정(적합도 검정)하거나 두 범주형 변수 간의 독립성을 검정(독립성 검정)&lt;/li&gt;
&lt;/ul&gt;
&lt;pre id=&quot;code_1781866589094&quot; class=&quot;bash&quot; data-ke-language=&quot;bash&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;# 적합도 검정
observed = [20, 30, 25, 25]
expected = [25, 25, 25, 25]
chi2_stat, p_value = stats.chisquare(observed, f_exp=expected)
print(f&quot;적합도 검정 카이제곱 통계량: {chi2_stat}, p-값: {p_value}&quot;)

# 독립성 검정
observed = np.array([[10, 10, 20], [20, 20, 40]])
chi2_stat, p_value, dof, expected = stats.chi2_contingency(observed)
print(f&quot;독립성 검정 카이제곱 통계량: {chi2_stat}, p-값: {p_value}&quot;)

# 성별과 흡연 여부 독립성 검정
observed = np.array([[30, 10], [20, 40]])
chi2_stat, p_value, dof, expected = stats.chi2_contingency(observed)
print(f&quot;독립성 검정 카이제곱 통계량: {chi2_stat}, p-값: {p_value}&quot;)&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1766&quot; data-origin-height=&quot;996&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bhMRWW/dJMcabknbEW/j1Keg4kIE6c5sacKmfOt9k/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bhMRWW/dJMcabknbEW/j1Keg4kIE6c5sacKmfOt9k/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bhMRWW/dJMcabknbEW/j1Keg4kIE6c5sacKmfOt9k/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbhMRWW%2FdJMcabknbEW%2Fj1Keg4kIE6c5sacKmfOt9k%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;610&quot; height=&quot;344&quot; data-origin-width=&quot;1766&quot; data-origin-height=&quot;996&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1672&quot; data-origin-height=&quot;504&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bcs7Wl/dJMcabLsXAt/her1YjKmA1PK4JYSc1qIf1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bcs7Wl/dJMcabLsXAt/her1YjKmA1PK4JYSc1qIf1/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bcs7Wl/dJMcabLsXAt/her1YjKmA1PK4JYSc1qIf1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fbcs7Wl%2FdJMcabLsXAt%2Fher1YjKmA1PK4JYSc1qIf1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;671&quot; height=&quot;202&quot; data-origin-width=&quot;1672&quot; data-origin-height=&quot;504&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;해당 가설검정의 오류는 머신러닝의 성능평가 &lt;span style=&quot;color: #6164c6;&quot;&gt;Confusion Matrix&lt;/span&gt;부분과 동일하다고 볼 수 있다.&lt;/b&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;346&quot; data-origin-height=&quot;256&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bYz0yS/dJMcadWI6Ii/aL0G39sE1KH3gSWR9rXG81/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bYz0yS/dJMcadWI6Ii/aL0G39sE1KH3gSWR9rXG81/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bYz0yS/dJMcadWI6Ii/aL0G39sE1KH3gSWR9rXG81/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbYz0yS%2FdJMcadWI6Ii%2FaL0G39sE1KH3gSWR9rXG81%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;251&quot; height=&quot;186&quot; data-origin-width=&quot;346&quot; data-origin-height=&quot;256&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;b&gt;제 1종 오류(&amp;alpha;) = FN&lt;/b&gt; : 실제로는 귀무가설이 옳은데 검정 결과 귀무가설을 기각하는 오류&lt;/li&gt;
&lt;li&gt;&lt;b&gt;제 2종 오류(&amp;beta;) = FP&lt;/b&gt; : 실제로는 귀무가설이 틀렸는데 검정 결과 귀무가설이 옳은 것으로 판단하는 오류&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&amp;rarr;&lt;span&gt; 1-&amp;alpha;, 1-&amp;beta;를 크게 할수록 옳은 결정을 할 가능성이 높아진다. But &amp;alpha;와 &amp;beta;의 크기는 서로 반대 방향으로 변하고 있으므로, 1-&amp;alpha;와 1-&amp;beta;를 동시에 크게 하기에는 현실적으로 불가능하다.&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;rarr; 가설의 채택여부가 실제로 미치는 영향을 감안해서 더 중요하다고 판단되는 가설채택에 따른 오류의 확률을 미리 지정된 값 이하로 하여 주는 검정방법을 찾는게 현실적이다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;rarr; 제 2종 오류의 가능성을 최소화하는 것이 가장 현실적이면서 좋은 통계적 검정법이다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&amp;rarr;&lt;span&gt; 연구자의 입장에서 보면 귀무가설이 거부되어야할 때 &lt;/span&gt;&lt;/span&gt;1-&amp;beta;가 커지도록 하는 것이 바람직하며, &lt;span style=&quot;background-color: #ffc1c8;&quot;&gt;1-&amp;beta;를 검정력&lt;/span&gt; 이라고 부른다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;▶ 가설검증 파이썬 코드&lt;/b&gt;&lt;/p&gt;
&lt;pre id=&quot;code_1781863575131&quot; class=&quot;bash&quot; data-ke-language=&quot;bash&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;# 기존 약물(A)와 새로운 약물(B) 효과 데이터 생성
A = np.random.normal(50, 10, 100)
B = np.random.normal(55, 10, 100)

# 평균 효과 계산
mean_A = np.mean(A)
mean_B = np.mean(B)

# t-검정 수행
t_stat, p_value = stats.ttest_ind(A, B)

print(f&quot;A 평균 효과: {mean_A}&quot;)
print(f&quot;B 평균 효과: {mean_B}&quot;)
print(f&quot;t-검정 통계량: {t_stat}&quot;)
print(f&quot;p-값: {p_value}&quot;)

# t-검정의 p-값 확인 (위 예시에서 계산된 p-값 사용)
print(f&quot;p-값: {p_value}&quot;)
if p_value &amp;lt; 0.05:
    print(&quot;귀무가설을 기각합니다. 통계적으로 유의미한 차이가 있습니다.&quot;)
else:
    print(&quot;귀무가설을 기각하지 않습니다. 통계적으로 유의미한 차이가 없습니다.&quot;)&lt;/code&gt;&lt;/pre&gt;</description>
      <category>내일배움 본캠프</category>
      <category>Til</category>
      <category>가설검증</category>
      <category>기초통계</category>
      <category>정규화</category>
      <category>표준화</category>
      <author>hyeon-ji</author>
      <guid isPermaLink="true">https://hyeon-ji.tistory.com/40</guid>
      <comments>https://hyeon-ji.tistory.com/40#entry40comment</comments>
      <pubDate>Fri, 19 Jun 2026 21:10:54 +0900</pubDate>
    </item>
    <item>
      <title>[내일배움 본캠프] 기술통계</title>
      <link>https://hyeon-ji.tistory.com/39</link>
      <description>&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;☆ To Do List ☆&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;AI진단퀴즈&lt;/li&gt;
&lt;li&gt;통계학 기초 챕터 2 수강&lt;/li&gt;
&lt;li&gt;머신러닝 기초 1-10까지 수강&lt;/li&gt;
&lt;li&gt;아티클 스터디&lt;/li&gt;
&lt;li&gt;라이브 세션(11:00, 19:30)&lt;/li&gt;
&lt;li&gt;TIL 작성 및 제출&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;font-family: AppleSDGothicNeo-Regular, 'Malgun Gothic', '맑은 고딕', dotum, 돋움, sans-serif;&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt; &lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;font-family: AppleSDGothicNeo-Regular, 'Malgun Gothic', '맑은 고딕', dotum, 돋움, sans-serif;&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt;&lt;span&gt;&amp;nbsp;에이타니&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;● 시계열 데이터 분해와 패턴 해석&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;원본 데이터 : 전반적으로 상승하는 패턴을 보이며, 매년 여름에 높고 겨울에 낮은 규칙적 변동이 관찰됨&lt;/li&gt;
&lt;li&gt;추세 성분 : 완만하게 상승하는 곡선 형태&lt;/li&gt;
&lt;li&gt;계절성 성분 : 12개월 주기로 동일한 패턴이 반복됨&lt;/li&gt;
&lt;li&gt;잔차 성분 : 0을 중심으로 불규칙하게 분포하나, 특정 시점에 큰 음수 값이 관찰됨&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;○ 위 데이터 해석&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;원본 데이터에서 상승하는 패턴을 보임을 알 수 있고, 추세 성분이 완만하게 상승하는 곡선 형태임을 봤을 때 해당 데이터는 장기적으로 증가 추세를 보인다라고 볼 수 있다.&lt;/li&gt;
&lt;li&gt;계절성 성분이 12개월 주기로 동일한 패턴이 반복된다는 것을 보고 계절성 주기가 1년이라는 것을 알 수 있다.&lt;/li&gt;
&lt;li&gt;원본 데이터에서 매년 여름에 높고 겨울에 낮은 규칙적이 반복되는 값은 계절성 성분으로 설명할 수 있다.&lt;/li&gt;
&lt;li&gt;잔차가 특정 시점에 큰 음수 값으로 관찰되는 것은 이상치가 특정 시점이 크게 나타난다는 것으로 설명할 수 있다.&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt; 기초통계&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;● 기술통계&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;표본이 대표성을 가지는 것이 중요함&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;긴꼬리분포는 아무리 데이터가 많아도 정규분포가 될 수 없음 --&amp;gt; 파레토분포랑 관련있음&lt;/p&gt;
&lt;table style=&quot;border-collapse: collapse; width: 81.1628%; height: 141px;&quot; border=&quot;1&quot; data-ke-align=&quot;alignLeft&quot; data-ke-style=&quot;style12&quot;&gt;
&lt;tbody&gt;
&lt;tr style=&quot;height: 19px;&quot;&gt;
&lt;td style=&quot;width: 26.0077%; text-align: center; height: 19px;&quot;&gt;확률분포&lt;/td&gt;
&lt;td style=&quot;width: 39.5128%; text-align: center; height: 19px;&quot;&gt;이산확률분포&lt;/td&gt;
&lt;td style=&quot;width: 34.4794%; text-align: center; height: 19px;&quot;&gt;연속확률분포&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 19px;&quot;&gt;
&lt;td style=&quot;width: 26.0077%; text-align: center; height: 19px;&quot;&gt;확률변수&lt;/td&gt;
&lt;td style=&quot;width: 39.5128%; text-align: center; height: 19px;&quot;&gt;이산확률변수&lt;/td&gt;
&lt;td style=&quot;width: 34.4794%; text-align: center; height: 19px;&quot;&gt;연속확률변수&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 19px;&quot;&gt;
&lt;td style=&quot;width: 26.0077%; text-align: center; height: 19px;&quot;&gt;확률함수&lt;/td&gt;
&lt;td style=&quot;width: 39.5128%; text-align: center; height: 19px;&quot;&gt;확률질량함수&lt;/td&gt;
&lt;td style=&quot;width: 34.4794%; text-align: center; height: 19px;&quot;&gt;확률밀도함수&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 19px;&quot;&gt;
&lt;td style=&quot;width: 26.0077%; text-align: center; height: 19px;&quot;&gt;확률분포&lt;/td&gt;
&lt;td style=&quot;width: 39.5128%; text-align: center; height: 19px;&quot;&gt;베르누이분포, 이항분포, 포아송분포, 기하분포, 초기하분포&lt;/td&gt;
&lt;td style=&quot;width: 34.4794%; text-align: center; height: 19px;&quot;&gt;정규분포, 지수분포, t분포, F분포&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;● 이산확률분포&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;베르누이분포 : 1번의 시행에서 성공확률이 p일 ㅈ때, 성공횟수 (실패 확률 = 1 - p)&lt;/li&gt;
&lt;li&gt;이항분포 : n번의 독립적 시행에서 각 시행의 성공확률이 p일 때, 성공횟수&lt;/li&gt;
&lt;li&gt;&amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; n이 충분히 크고, p가 0.5에 가까울 경우 정규분포에 근사할 수 있음&lt;/li&gt;
&lt;li&gt;기하분포 : 각 독립적 시행의 성공확률이 p일 때, 최초 성공까지의 필요한 시행 횟수&lt;/li&gt;
&lt;li&gt;포아송분포 : 단위시간(구간)동안 평균적으로 &amp;lambda;번 사건이 발생할 때, 실제로 단위시간동안 사건이 일어난 횟수&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;b&gt;●&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/b&gt;연속확률분포&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;균일분포 : a와 b사이에서 숫자(실수)가 동일한 확률로 분포됨&lt;/li&gt;
&lt;li&gt;지수분포 : 사건이 발생할 때까지 걸리는 시간&lt;/li&gt;
&lt;li&gt;정규분포 : 평균을 중심으로 좌우 대칭의 종 모양으로 분포됨&lt;/li&gt;
&lt;li&gt;카이제곱분포 : 표본분산이나 범주형 데이터의 적합도&amp;middot;독립성을 검정할 때 사용하는 분포&lt;/li&gt;
&lt;li&gt;t분포 : 모집단의 분산을 모르고 표본 수가 적을 때 모집단 평균을 추정하거나 두 집단 평균 차이를 검정할 때 사용하는 분포&lt;/li&gt;
&lt;li&gt;F분포 : 두 집단의 분산을 비교하거나 분산분석(ANOVA)을 수행할 때 사용하는 분포&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt;&lt;span&gt; ️&lt;/span&gt;&amp;nbsp;머신러닝&lt;/span&gt;&lt;/h4&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;MSE를 사용하는 이유는&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;여러가지 모델을 만들어 각각의 MSE값을 구해 모델 성능을 비교할 때 사용&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;다른 데이터셋에서 구한 MSE끼리 비교하는 것은 옳지 않음. 단위가 다르기 때문에 비교할 수 없음.&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;r2는 분야마다 적정 기준치가 있다....&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;TIL 작성할 시간이 부족하네요..&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;내일부터는 진짜 미리미리 쓰겠습니당..&lt;/p&gt;</description>
      <category>내일배움 본캠프</category>
      <author>hyeon-ji</author>
      <guid isPermaLink="true">https://hyeon-ji.tistory.com/39</guid>
      <comments>https://hyeon-ji.tistory.com/39#entry39comment</comments>
      <pubDate>Thu, 18 Jun 2026 20:59:26 +0900</pubDate>
    </item>
    <item>
      <title>[내일배움 본캠프] 기초통계와 머신러닝</title>
      <link>https://hyeon-ji.tistory.com/38</link>
      <description>&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;☆ To Do List ☆&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;라이브세션 수강(11시, 7:30)&lt;/li&gt;
&lt;li&gt;AI 진단퀴즈&lt;/li&gt;
&lt;li&gt;코드카타&lt;/li&gt;
&lt;li&gt;통계학 기초 1챕터&lt;/li&gt;
&lt;li&gt;머신러닝 기초 수강&lt;/li&gt;
&lt;li&gt;자소서 작성&lt;/li&gt;
&lt;li&gt;TIL 작성 및 제출&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;font-family: AppleSDGothicNeo-Regular, 'Malgun Gothic', '맑은 고딕', dotum, 돋움, sans-serif;&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt; &lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;font-family: AppleSDGothicNeo-Regular, 'Malgun Gothic', '맑은 고딕', dotum, 돋움, sans-serif;&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt;&lt;span&gt;&amp;nbsp;에이타니&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;에이타니로 &quot;시계열 데이터 분해와 패턴 해석&quot; 부분의 새로운 퀴즈를 풀려고 도전했다가, 하나도 모르겠어서 바로 나와버렸다. 그래서 그 전에 오답률이 높았던 회귀분석 리뷰를 하기로 했다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;다중선형회귀&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;- 기울기(계수, coefficient0 각 '독립변수 가 종속변수에 얼마나 큰 영향을 미치는가&quot;를 보여주는 값이다. 다중 회귀에서는 하나의 스칼라 값으로 저장되지 않고, 독립변수가 3개이면 기울기도 3개다. 이들을 배열 형태로 저장된다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;계수(기울기) --&amp;gt; 각 독립변수의 영향력 (독립변수 개수만큼)&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;절편 --&amp;gt; 기준점 1개&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;성능 지표 --&amp;gt; 모델이 얼마나 잘 작동하는지 (1개, 따로 구해야 함)&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;font-family: AppleSDGothicNeo-Regular, 'Malgun Gothic', '맑은 고딕', dotum, 돋움, sans-serif; background-color: #dddddd;&quot;&gt; &lt;span&gt;&amp;nbsp;&lt;/span&gt;CodeKata&lt;/span&gt;&lt;/h4&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;936&quot; data-origin-height=&quot;682&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/KBxKm/dJMcaijpVLz/jKu8N9cKpSqOprNiVGBhIk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/KBxKm/dJMcaijpVLz/jKu8N9cKpSqOprNiVGBhIk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/KBxKm/dJMcaijpVLz/jKu8N9cKpSqOprNiVGBhIk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FKBxKm%2FdJMcaijpVLz%2FjKu8N9cKpSqOprNiVGBhIk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;545&quot; height=&quot;397&quot; data-origin-width=&quot;936&quot; data-origin-height=&quot;682&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;pre id=&quot;code_1781686485106&quot; class=&quot;bash&quot; data-ke-language=&quot;bash&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;def solution(arr, divisor):
    answer = []
    for num in arr:
        if num % divisor == 0:
            answer.append(num)
    
    if not answer:
        return [-1]
    else:
        answer.sort()
        return answer

solution([5, 9, 7, 10], 5)
'''
결과
[5, 10]
'''&lt;/code&gt;&lt;/pre&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt; 기초통계&lt;/span&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt;&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;오늘 진행한 기초 통계 학습에서는 딱히 어려운 부분이 없었다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;추론 통계&lt;/b&gt;는 ' &lt;u&gt;가설 검정, 신뢰구간&lt;/u&gt; ' 등을 말하고, &lt;b&gt;기술 통계&lt;/b&gt;는 우리가 흔히 알고 있는 ' &lt;u&gt;평균값, 중앙값, 최빈값, 분산, 표준편차&lt;/u&gt; ' 등이 이에 해당한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;추론 통계&lt;/b&gt;는 ' &lt;b&gt;표본&lt;/b&gt; ' 데이터를 활용해서 ' &lt;b&gt;전체&lt;/b&gt; '에 대해 ' &lt;b&gt;추론&lt;/b&gt; '하고 ' &lt;b&gt;검증&lt;/b&gt; '하는 것을 의미한다. ex) ANOVA, 회귀분석, 카이제곱...&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;기술 통계&lt;/b&gt;는 데이터를 ' &lt;b&gt;계산 '&lt;/b&gt;하고, ' &lt;b&gt;요약&amp;middot;설명 '&lt;/b&gt;하는 것을 의미한다. ex) 최댓값, 최솟값, 평균, 분산, 표준편차, 히스토그램, 박스플롯...&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;데이터 분석이란?&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;정답을 맞히는 것이 아니라 데이터로 가능성을 하나씩 제거하며 판단의 범위를 좁혀가는 과정이다.&lt;/p&gt;
&lt;p data-end=&quot;715&quot; data-start=&quot;628&quot; data-ke-size=&quot;size16&quot;&gt;통계는 이러한 과정을 객관적으로 수행할 수 있도록 돕는 도구이며, 분석가의 편향이 개입되지 않고 누구나 동일한 결과를 &lt;b&gt;재현&lt;/b&gt;할 수 있는 분석이 좋은 분석이다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;변수(데이터) 종류&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;1. 수치형&lt;/b&gt; : 사칙연산이 가능한 데이터&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;연속형 : 측정하는 값 ex) 키, 몸무게&lt;/li&gt;
&lt;li&gt;정수형 : 셀 수 있는 값 ex) 불량품 개수&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;2. 범주형&lt;/b&gt; : 범주로 나뉘어지는 데이터&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;명목 변수 : 순위가 없는 데이터 ex) 남성, 여성&lt;/li&gt;
&lt;li&gt;서수 변수 : 순위가 있는 데이터 ex) 학점 A, B, C, D, F&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt;&lt;span&gt; ️&lt;/span&gt;&amp;nbsp;머신러닝&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;기계학습의 3분류&lt;/b&gt;&lt;/p&gt;
&lt;table style=&quot;border-collapse: collapse; width: 100%;&quot; border=&quot;1&quot; data-ke-align=&quot;alignLeft&quot; data-ke-style=&quot;style12&quot;&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 13.4883%; text-align: center;&quot;&gt;&amp;nbsp;&lt;/td&gt;
&lt;td style=&quot;width: 31.0466%; text-align: center;&quot;&gt;지도학습&lt;/td&gt;
&lt;td style=&quot;width: 27.3256%; text-align: center;&quot;&gt;비지도학습&lt;/td&gt;
&lt;td style=&quot;width: 28.1395%; text-align: center;&quot;&gt;강화학습&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 13.4883%; text-align: center;&quot;&gt;학습 방식&lt;/td&gt;
&lt;td style=&quot;width: 31.0466%; text-align: center;&quot;&gt;문제와 답(label)을 주고 모델을 학습시킨 후, 문제에 대한 답을 예측하는 방식&lt;/td&gt;
&lt;td style=&quot;width: 27.3256%; text-align: center;&quot;&gt;답(label)을 사전에 지정하지 않은 데이터로부터 특정 패턴을 찾아내는 방식&lt;/td&gt;
&lt;td style=&quot;width: 28.1395%; text-align: center;&quot;&gt;주어진 상태(state)에서 보상(reward)이 최대인 행동(action)을 찾아가는 방식&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 13.4883%; text-align: center;&quot;&gt;특징&lt;/td&gt;
&lt;td style=&quot;width: 31.0466%; text-align: center;&quot;&gt;학습데이터 확보 필수, 목표값(label) 필수&lt;/td&gt;
&lt;td style=&quot;width: 27.3256%; text-align: center;&quot;&gt;학습 데이터 확보 필수, 목표값(label) 불필요&lt;/td&gt;
&lt;td style=&quot;width: 28.1395%; text-align: center;&quot;&gt;학습 데이터 확보 불필요, 상태, 행동, 보상에 대한 실험환경 필요&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 13.4883%; text-align: center;&quot;&gt;세부 유형&lt;/td&gt;
&lt;td style=&quot;width: 31.0466%; text-align: center;&quot;&gt;회귀, 분류&lt;/td&gt;
&lt;td style=&quot;width: 27.3256%; text-align: center;&quot;&gt;군집화, 차원축소&lt;/td&gt;
&lt;td style=&quot;width: 28.1395%; text-align: center;&quot;&gt;가치 기반 기법, 정책 기반 기법&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 13.4883%; text-align: center;&quot;&gt;제조분석예시&lt;/td&gt;
&lt;td style=&quot;width: 31.0466%; text-align: center;&quot;&gt;공정기반 불량패턴 분류, 수요 예측&lt;/td&gt;
&lt;td style=&quot;width: 27.3256%; text-align: center;&quot;&gt;생산공정 군집화, 장비 이상상황 감지&lt;/td&gt;
&lt;td style=&quot;width: 28.1395%; text-align: center;&quot;&gt;생산일정계획 수립, 물류로봇 이동경로&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;지도학습과 비지도학습의 알고리즘&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;지도학습&lt;/b&gt;&lt;b&gt;&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;분류 &amp;gt; Decision Tree, Logistic Regression, Naive Bayes Classifier, Support Vector, Neural Network, Random Forest&lt;/li&gt;
&lt;li&gt;회귀 &amp;gt; Regression, Generalized Linear Model, k-Nearest Neighbors(k-NN), Neural Network, Time-Series Analysis&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;비지도학습&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;군집화 : k-Means, Hierarchical Clusteringm Density-based Clustering, Model-based Clistering&lt;/li&gt;
&lt;li&gt;연관 분석 &amp;amp; 차원 축소 :&amp;nbsp;Association Rule Mining, Sequential Rule Mining, Causality Analysis&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;새로운 조로 편성되고, 새로운 학습 주차가 시작되면서 많이 정신없었던 것 같다. 통계 기초를 학습할 때까지만 해도 이미 다 알고 있는 내용이고~ 그렇게 어렵지 않네~ 라는 생각을 하면서 편안하게 듣고 있었는데,,&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;머신러닝 강의를 들으면서 인사이 찌풀어졌다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;그래서 그게 뭔데..??&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;오늘 처음 배우면서 약간 훑는다는 느낌으로 들었다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;내일부터 모르는거 차근차근 알아보면서 들어야겠다!&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;</description>
      <category>내일배움 본캠프</category>
      <author>hyeon-ji</author>
      <guid isPermaLink="true">https://hyeon-ji.tistory.com/38</guid>
      <comments>https://hyeon-ji.tistory.com/38#entry38comment</comments>
      <pubDate>Wed, 17 Jun 2026 20:59:21 +0900</pubDate>
    </item>
  </channel>
</rss>