오늘 끝나면
통계는 왜 하는가
- ✓통계는 왜 하는가의 핵심 문제를 한 문장으로 설명한다
- ✓오른쪽 실습에서 통계는이 어떻게 움직이는지 관찰한다
- ✓다음 강의와 이어지는 한계를 말할 수 있다
실습 미션
감이 아니라 데이터로 판단 — 불확실 속에서 결정하는 법 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.
성공 조건
- □실습의 기본값을 먼저 관찰
- □입력값이나 모드를 한 번 이상 바꿔 결과 비교
- □왜 결과가 바뀌었는지 한 문장으로 설명
통계 · 01
통계는
왜 하는가
세상은 불확실함. 같은 걸 재도 잴 때마다 값이 달라짐.
통계는 그 흔들림 속에서 감이 아니라 데이터로 판단하는 도구임.
우연인지 진짜 신호인지를 따지는 법임.
세상엔 변동이 있다
한 번 본 걸로 단정하면 거의 틀림. 세상엔 변동(variation)이 있기 때문임.
변동은 같은 것을 재도 값이 흔들리는 것임.
키를 재도, 매출을 봐도, 동전을 던져도 매번 똑같이 안 나옴.
특히 표본(sample)은 뽑을 때마다 다르게 나옴.
오른쪽처럼 같은 집단에서 5명씩 뽑아도 평균이 제각각임.
그래서 한 표본 하나만 보고 “이게 진실이다”라고 못 함.
적게 보면 못 믿는다
공정한 동전이라도 적게 던지면 비율이 0.5에서 크게 출렁임.
오른쪽에서 직접 던져 봄.
5번 던지면 앞면이 1번도, 4번도 나옴. 비율이 0.2, 0.8을 오감.
근데 100번, 1000번 던지면 비율이 0.5에 딱 붙음.
이게 큰 수의 법칙(law of large numbers)임.
시행을 늘릴수록 관측 비율이 진짜 확률로 수렴하는 것임.
뒤집으면 이런 뜻임 — 데이터가 적으면 믿지 마셈.
작은 표본의 출렁임은 우연일 뿐, 진실이 아님.
버튼을 눌러 던져 보셈. 공정한 동전(앞면 확률 0.5)임.
기술통계 vs 추론통계
통계는 크게 두 갈래임. 하는 일이 서로 다름.
기술통계(descriptive)는 가진 데이터를 요약하는 것임.
평균·중앙값·분산·그래프로 “지금 이 데이터가 어떻게 생겼나”를 보여줌.
추론통계(inferential)는 일부로 전체를 추측하는 것임.
표본을 보고 손 못 댄 모집단(population)을 짐작하는 것임.
여론조사 1,000명으로 5천만 표심을 추정하는 게 추론통계임.
전수조사는 보통 불가능해서, 통계의 진짜 힘은 이 추론에 있음.
우연인가, 신호인가
통계의 핵심 질문은 하나임 — 이건 우연인가, 진짜 신호인가?
신약 먹은 그룹이 좀 나았음. 광고 바꾸니 매출이 좀 올랐음.
근데 이게 약·광고 덕분인가, 아니면 그냥 운이 좋았나?
변동이 있으니 차이는 우연으로도 생김.
통계는 그 차이가 우연으로 보기엔 너무 큰지를 따져 신호와 잡음을 가름.
그래서 통계는 확신을 주는 게 아니라 불확실성을 다루는 도구임.
“얼마나 믿을 만한가”를 숫자로 말하게 해줌.
통계 = 이 둘을 숫자로 가르는 법
그래서 통계가 필요하다
정리하면 — 변동이 있으니 한 번 본 걸론 못 믿고, 적은 데이터는 우연에 휘둘림.
그래서 데이터를 요약하고(기술), 일부로 전체를 추측하고(추론),
그 차이가 우연인지 신호인지 따지는 도구가 통계임.
다음 강(2강)에선 그 변동의 모양 자체를 들여다봄 — 분포(distribution)임.
Q. 동전을 5번 던져 4번 앞면이면, 이 동전이 이상하다고 할 수 있나?
못 함.공정한 동전이라도 5번 중 4번 앞면은 우연으로 충분히 나옴(확률 약 16%).
표본이 작으면 출렁임이 커서 우연과 편향을 구분할 수 없음.
많이 던져 비율이 0.5에서 계속 벗어나야 진짜 편향이라 의심 가능 — 이게 통계가 필요한 이유임.
| 변동 | 세상은 흔들림 — 한 번 본 걸론 못 믿음 |
| 작은 표본 | 우연에 휘둘림 — 단정하면 위험 |
| 기술통계 | 가진 데이터를 요약 |
| 추론통계 | 일부로 전체를 추측 |
| 핵심 질문 | 우연인가, 신호인가 |