스킬캠퍼스

질문에서 모델까지

통계 & 데이터 분석 · 대학 수준

질문이
모델을 정한다

분석은 무슨 질문이냐에서 시작함. 수치가 얼마? → 회귀. 했냐 안 했냐? → 로지스틱. 두 집단 차이가 진짜? → t검정. 평균·분포에서 시작해 검정·회귀·생존분석, 랜덤포레스트·PCA까지 — 수식보다 직관으로 끝까지 감.

코스 · 22강

기초에서 모델까지

기초(1–6) → 추론·검정(7–12) → 회귀(13–16) → 머신러닝 모델(17–22). 한 칸씩 쌓아 올림.

통계는 왜 하는가 →

감이 아니라 데이터로 판단 — 불확실 속에서 결정하는 법

데이터가 퍼진 모양 — 종모양(정규분포)이 왜 자꾸 나오나

평균·분산·표준편차 →

가운데(평균)와 퍼짐(분산) 한 쌍으로 데이터를 요약

표본과 모집단 →

다 못 재니 일부로 추측 — 표본은 매번 흔들림(표집오차)

중심극한정리 →

아무 분포라도 표본평균은 정규분포로 모임 — 통계가 작동하는 이유

확률과 베이즈 →

새 증거로 믿음을 갱신 — 양성인데 환자가 아닐 확률(역설)

가설검정과 p값 →

우연일 뿐일까? — 귀무가설·유의수준·p값의 진짜 의미

신뢰구간 →

점 하나 말고 범위로 — 95%가 정말 뜻하는 것

두 집단 평균 차이가 진짜인가?

분산분석 (ANOVA) →

세 집단 이상 평균 차이가 진짜인가?

카이제곱 검정 →

범주끼리 관계가 있나? — 관측 vs 기대 빈도

상관 vs 인과 →

같이 움직인다고 원인은 아님 — 교란변수의 함정

선형 회귀 →

수치가 얼마? — 점에 직선 맞추기(최소제곱)

로지스틱 회귀 →

했냐 안 했냐? — 확률 0~1로 누르는 S곡선

포아송 회귀 →

몇 건 발생? — 드문 사건의 개수 모델

생존 분석 (Cox) →

사건 발생까지 얼마나 걸리나? — 생존곡선

의사결정나무 →

스무고개처럼 조건 따져서 나누자

랜덤 포레스트 →

스무고개 여러 개 모아서 다수결

나이브 베이즈 →

단어 확률 계산해서 어디 속하는지 분류

K-평균 군집화 →

정답 없이 비슷한 놈들끼리 묶어라

주성분 분석 (PCA) →

변수가 너무 많으니 핵심만 추려라

시계열 분석 (ARIMA) →

과거 흐름 보니 미래엔 이렇겠네

모든 강에 인터랙티브. 분포를 직접 흔들고, 표본을 뽑고, 직선을 맞추고, 군집을 돌려보며 익힘.