오늘 끝나면
표본과 모집단
- ✓표본과 모집단의 핵심 문제를 한 문장으로 설명한다
- ✓오른쪽 실습에서 표본과이 어떻게 움직이는지 관찰한다
- ✓다음 강의와 이어지는 한계를 말할 수 있다
실습 미션
다 못 재니 일부로 추측 — 표본은 매번 흔들림(표집오차) 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.
성공 조건
- □실습의 기본값을 먼저 관찰
- □입력값이나 모드를 한 번 이상 바꿔 결과 비교
- □왜 결과가 바뀌었는지 한 문장으로 설명
통계 · 04
표본과
모집단
알고 싶은 건 전체임. 근데 전체는 다 못 잼.
그래서 일부만 뽑아(표본) 전체(모집단)를 추측함.
표본은 뽑을 때마다 흔들림 — 이걸 다루는 게 통계임.
모집단은 전체, 표본은 일부
모집단은 알고 싶은 대상 전체임. 예: 대한민국 사람 전부의 키.
근데 전국민을 다 재는 건 불가능함.
돈·시간·접근 — 다 안 됨.
그래서 일부만 뽑음. 이 일부가 표본임.
모집단은 우리가 진짜 알고 싶은 것
표본은 실제로 손에 쥔 것
통계의 목표는 한 가지임.
손에 쥔 표본으로 못 본 모집단을 추측하는 것임.
모르는 모수를 추정한다
모집단의 진짜 값을 모수(parameter)라 함. 모평균 μ, 모분산 σ².
모수는 고정된 진실임. 하나의 값임.
근데 우리는 그 값을 모름 — 전체를 못 봤으니까.
표본에서 계산한 값은 통계량(statistic)임.
표본평균 x̄, 표본분산 s².
하는 일은 이거임.
통계량 x̄로 모수 μ를 추정함.
표본평균을 모평균의 추정치로 쓰는 것임.
| 모수 · 진실 | 통계량 · 추측 | |
|---|---|---|
| 평균 | μ (모평균) | x̄ (표본평균) |
| 분산 | σ² | s² |
| 비율 | p | p̂ |
표본평균은 매번 흔들린다
오른쪽에서 직접 뽑아 보셈. 회색 점이 모집단, 파란 점이 뽑힌 표본임.
표본평균(파란 선)은 모평균(검은 선) 근처에 옴.
근데 정확히 같지는 않음.
[다시 뽑기]를 눌러 보셈.
같은 크기로 뽑아도 표본평균이 매번 달라짐.
이 흔들림이 표집오차(sampling error)임.
표집오차 = 표본평균 − 모평균.
오차가 생기는 건 실수가 아니라 표본을 쓰는 한 피할 수 없는 성질임.
n을 키우면 표본평균선(파랑)이 모평균선(검정)에 더 붙고 덜 흔들림.
같은 n으로 다시 뽑아도 매번 값이 다름 = 표집오차.
n이 커지면 오차가 작아진다
왼쪽 Lab에서 n 슬라이더를 키워 보셈. 파란 선이 검은 선에 착 붙음.
표본이 클수록 표집오차가 작아짐.
더 많이 보면 전체에 가까워지는 게 당연함.
정확히는 표본평균의 흔들림(표준오차)이 이렇게 줄어듦.
SE = σ / √n
n이 4배가 되면 흔들림은 2배가 아니라 절반으로 줄어듦(√n 때문).
표준오차 SE = σ/√n, 왜 √n인지
독립인 n개 값의 합의 분산은 각 분산의 합 = nσ². 평균은 합을 n으로 나눈 것이라 분산이 nσ²/n² = σ²/n로 줄어듦. 표준편차로 보면 √(σ²/n) = σ/√n임. 그래서 흔들림은 n이 아니라 √n에 반비례함. n을 100배 키워야 오차가 10배 줄어듦 — 정확도는 비싸게 사는 것임.n 4배 → 막대 절반 (√4 = 2배 정확)
편향은 크기로 못 고친다
그럼 무조건 많이 뽑으면 되나? 아님. 함정이 하나 있음.
표집이 편향(bias)됐으면 — 특정 집단만 뽑혔으면 — 크기를 키워도 못 고침.
농구부 100명으로 전국민 키를 추정하면, 1,000명으로 늘려도 여전히 큼.
표집오차는 뽑을 때마다 다른 우연한 흔들림 → n으로 줄어듦.
편향은 한 방향으로 계속 빗나감 → n을 키워도 그대로 빗나감.
그래서 핵심은 무작위 표집임.
모집단의 누구나 같은 확률로 뽑혀야 표본이 전체를 대표함.
Q. 표본 크기를 키우면 항상 정확해지나?
아님. 표집이 편향됐으면(특정 집단만 뽑힘) 크기를 키워도 틀린 추정이 됨. n을 키우면 우연한 표집오차는 줄지만, 한 방향으로 치우친 편향은 그대로 남음. 정확한 추정의 전제는 큰 n이 아니라 무작위·대표성 있는 표집임.모평균 주위로 양옆에 흩어짐.
n 키우면 폭이 좁아짐 → 고칠 수 있음.
특정 집단만 뽑혀 계속 같은 쪽으로 빗나감.
n 키워도 그대로 빗나감 → 못 고침.