스킬캠퍼스
1강 · 통계는 왜 하는가
강의

오늘 끝나면

통계는 왜 하는가

  • 통계는 왜 하는가의 핵심 문제를 한 문장으로 설명한다
  • 오른쪽 실습에서 통계는이 어떻게 움직이는지 관찰한다
  • 다음 강의와 이어지는 한계를 말할 수 있다

실습 미션

감이 아니라 데이터로 판단 — 불확실 속에서 결정하는 법 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.

성공 조건

  • 실습의 기본값을 먼저 관찰
  • 입력값이나 모드를 한 번 이상 바꿔 결과 비교
  • 왜 결과가 바뀌었는지 한 문장으로 설명

통계 · 01

통계는
왜 하는가

세상은 불확실함. 같은 걸 재도 잴 때마다 값이 달라짐.
통계는 그 흔들림 속에서 감이 아니라 데이터로 판단하는 도구임.
우연인지 진짜 신호인지를 따지는 법임.

P.01통계 · 01

세상엔 변동이 있다

한 번 본 걸로 단정하면 거의 틀림. 세상엔 변동(variation)이 있기 때문임.

변동은 같은 것을 재도 값이 흔들리는 것임.
키를 재도, 매출을 봐도, 동전을 던져도 매번 똑같이 안 나옴.

특히 표본(sample)은 뽑을 때마다 다르게 나옴.
오른쪽처럼 같은 집단에서 5명씩 뽑아도 평균이 제각각임.
그래서 한 표본 하나만 보고 “이게 진실이다”라고 못 함.

같은 모집단 · 표본은 뽑을 때마다 다름
같은 집단 · 5명씩 4번 뽑기
표본 1
168 172 159 181 165
평균
169.0
표본 2
175 162 170 178 158
평균
168.6
표본 3
160 185 171 166 174
평균
171.2
표본 4
182 167 163 176 169
평균
171.4
같은 집단인데 평균이 다 다름 — 이게 표본의 변동
P.02통계 · 01

적게 보면 못 믿는다

공정한 동전이라도 적게 던지면 비율이 0.5에서 크게 출렁임.

오른쪽에서 직접 던져 봄.
5번 던지면 앞면이 1번도, 4번도 나옴. 비율이 0.2, 0.8을 오감.
근데 100번, 1000번 던지면 비율이 0.5에 딱 붙음.

이게 큰 수의 법칙(law of large numbers)임.
시행을 늘릴수록 관측 비율이 진짜 확률로 수렴하는 것임.

뒤집으면 이런 뜻임 — 데이터가 적으면 믿지 마셈.
작은 표본의 출렁임은 우연일 뿐, 진실이 아님.

던질수록 0.5로 수렴 — 직접 던져 보셈
큰 수의 법칙 · 동전 던지기
앞면 비율 — 던질수록 0.5로 수렴
0.00.51.0110
던진 횟수
0
앞면
0
앞면 비율

버튼을 눌러 던져 보셈. 공정한 동전(앞면 확률 0.5)임.

P.03통계 · 01

기술통계 vs 추론통계

통계는 크게 두 갈래임. 하는 일이 서로 다름.

기술통계(descriptive)는 가진 데이터를 요약하는 것임.
평균·중앙값·분산·그래프로 “지금 이 데이터가 어떻게 생겼나”를 보여줌.

추론통계(inferential)는 일부로 전체를 추측하는 것임.
표본을 보고 손 못 댄 모집단(population)을 짐작하는 것임.

여론조사 1,000명으로 5천만 표심을 추정하는 게 추론통계임.
전수조사는 보통 불가능해서, 통계의 진짜 힘은 이 추론에 있음.

요약하기 · 일부로 전체 추측하기
통계의 두 갈래
기술통계
descriptive
가진 데이터를 요약
평균·중앙값
분산·표준편차
표·그래프
추론통계
inferential
일부로 전체를 추측
표본 → 모집단
추정·신뢰구간
가설검정
요약은 기술 · 추측은 추론
P.04통계 · 01

우연인가, 신호인가

통계의 핵심 질문은 하나임 — 이건 우연인가, 진짜 신호인가?

신약 먹은 그룹이 좀 나았음. 광고 바꾸니 매출이 좀 올랐음.
근데 이게 약·광고 덕분인가, 아니면 그냥 운이 좋았나?

변동이 있으니 차이는 우연으로도 생김.
통계는 그 차이가 우연으로 보기엔 너무 큰지를 따져 신호와 잡음을 가름.

그래서 통계는 확신을 주는 게 아니라 불확실성을 다루는 도구임.
“얼마나 믿을 만한가”를 숫자로 말하게 해줌.

통계가 매번 던지는 단 하나의 질문
차이가 보임 — 어느 쪽인가?
관측된 차이+3.2%
↓ 이게 어느 쪽?
우연 (잡음)
그냥 운이 좋았던 흔들림
신호
진짜 효과가 있는 것

통계 = 이 둘을 숫자로 가르는 법

P.05통계 · 01

그래서 통계가 필요하다

정리하면 — 변동이 있으니 한 번 본 걸론 못 믿고, 적은 데이터는 우연에 휘둘림.

그래서 데이터를 요약하고(기술), 일부로 전체를 추측하고(추론),
그 차이가 우연인지 신호인지 따지는 도구가 통계임.

다음 강(2강)에선 그 변동의 모양 자체를 들여다봄 — 분포(distribution)임.

Q. 동전을 5번 던져 4번 앞면이면, 이 동전이 이상하다고 할 수 있나?못 함.
공정한 동전이라도 5번 중 4번 앞면은 우연으로 충분히 나옴(확률 약 16%).
표본이 작으면 출렁임이 커서 우연과 편향을 구분할 수 없음.
많이 던져 비율이 0.5에서 계속 벗어나야 진짜 편향이라 의심 가능 — 이게 통계가 필요한 이유임.
작은 표본의 함정 · 한 줄 정리
1강 한눈에
변동세상은 흔들림 — 한 번 본 걸론 못 믿음
작은 표본우연에 휘둘림 — 단정하면 위험
기술통계가진 데이터를 요약
추론통계일부로 전체를 추측
핵심 질문우연인가, 신호인가

3줄 요약

  1. 1감이 아니라 데이터로 판단 — 불확실 속에서 결정하는 법
  2. 2통계는 왜 하는가은 분포 → 표본 → 검정 → 회귀 → 모델 선택 흐름 안의 한 칸이다.
  3. 3개념을 외우는 것보다 입력을 바꾸면 무엇이 달라지는지 보는 것이 우선이다.

완료 전 점검

복습 카드

통계는

감이 아니라 데이터로 판단 — 불확실 속에서 결정하는 법

분포

데이터가 어떤 모양으로 퍼져 있는지 나타낸 것

표본

전체를 알기 위해 뽑아 본 일부 데이터