오늘 끝나면
부트스트랩
- ✓부트스트랩의 핵심 문제를 한 문장으로 설명한다
- ✓오른쪽 실습에서 부트스트랩이 어떻게 움직이는지 관찰한다
- ✓다음 강의와 이어지는 한계를 말할 수 있다
실습 미션
리샘플링으로 불확실성을 직접 재기 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.
성공 조건
- □실습의 기본값을 먼저 관찰
- □입력값이나 모드를 한 번 이상 바꿔 결과 비교
- □왜 결과가 바뀌었는지 한 문장으로 설명
통계 · 39
부트
스트랩
분포 가정 없이 불확실성을 잼.
가진 표본에서 복원추출로 가짜 표본 수천 개를 만들어, 통계량의 흔들림을 눈으로 봄.
공식이 어려운 통계량에도 통함 / 컴퓨터의 힘으로 미는 추론임.
분포 가정 없이 불확실성을 잰다
신뢰구간을 구하려면 보통 표집분포를 알아야 함. 평균이면 정규근사, t분포 같은 공식이 있음.
근데 통계량이 중앙값·상관계수·90분위수·지니계수라면?
표집분포 공식이 없거나 끔찍하게 복잡함.
표본이 작거나 분포가 치우치면 정규근사도 못 믿음.
부트스트랩의 발상은 과감함.
모분포를 모르면, 가진 표본을 모분포 대신 씀.
표본이 모집단을 잘 닮았다면, 표본에서 다시 뽑는 일이 모집단에서 뽑는 일을 흉내 냄.
그래서 수식 대신 재표집으로 표집분포를 직접 만들어 버림.
분포 가정도, 어려운 공식도 필요 없음 / 컴퓨터가 대신 뽑아줌.
표집분포를 안다고 가정
정규근사
t분포
CI = x̄ ± t·SE
중앙값·상관계수엔
공식이 막힘
표본에서 다시 뽑아 분포를 만듦
복원추출 ×B
통계량 쌓기
분위수로 자름
어떤 통계량이든
같은 절차
복원추출 = 표본에서 다시 뽑기
핵심 동작은 복원추출(resampling with replacement) 한 가지임.
원표본 크기가 n이면, 그 안에서 한 개를 뽑고 도로 넣고 또 뽑음.
이걸 n번 반복해 똑같이 크기 n인 새 표본 하나를 만듦 / 이게 부트스트랩 표본임.
되돌려 넣으니 같은 값이 여러 번 뽑힐 수 있고, 어떤 값은 한 번도 안 뽑힘.
그 우연한 중복·누락이 곧 “표본이 달랐다면”의 시나리오를 만듦.
평균적으로 원소의 약 63%만 한 번 이상 등장함 (나머지 37%는 빠짐).
부트스트랩 표본 하나마다 통계량을 하나 계산함.
이 재추출을 B = 1000~10000번 반복하면 통계량이 그만큼 쌓임.
7은 세 번 뽑힘 · 4와 6은 빠짐
평균 약 63%만 등장 / 그 우연이 흔들림을 만듦
쌓인 분포가 곧 신뢰구간
오른쪽에서 직접 돌려 봄. 1개씩, 또는 +500개씩 복원추출을 누적함.
한 번 뽑을 때마다 그 부트스트랩 표본의 통계량이 히스토그램에 한 칸 쌓임.
수백·수천 개가 쌓이면 봉우리가 또렷해짐 / 이게 통계량의 표집분포 근사임.
이 분포의 가운데 95%를 잘라내면 신뢰구간임.
정렬한 부트스트랩 통계량에서 2.5% 지점과 97.5% 지점을 읽음 / 백분위수법(percentile method).
그 양 끝이 95% 신뢰구간의 하한·상한임.
통계량 버튼을 평균에서 중앙값·표준편차로 바꿔 보셈.
공식이 다 다른 통계량인데도 절차는 똑같음 / 뽑고 · 재고 · 쌓고 · 자름.
아직 표본이 적음. 최소 20개 이상 쌓이면 2.5·97.5 분위수로 구간이 잡힘.
왜 통하나 — 표본이 모집단을 대신한다
부트스트랩이 마법 같지만 근거가 있음. 플러그인(plug-in) 원리임.
진짜 표집분포는 미지의 모분포 F에서 크기 n을 뽑아 통계량을 잰 분포임.
F를 모르니, 표본이 만든 경험분포 F̂를 대신 끼워 넣음(plug in).
F̂에서 크기 n을 뽑는 것 = 원표본에서 복원추출.
표본 크기 n이 커질수록 F̂가 F에 가까워짐.
그래서 부트스트랩 분포가 진짜 표집분포에 수렴함 / 큰 표본에서 잘 맞음.
한계도 분명함.
원표본이 편향됐으면 부트스트랩도 그 편향을 그대로 복제함 / 없는 정보를 만들어 내진 못함.
극단값·최댓값처럼 꼬리에 민감한 통계량엔 약함.
백분위수법 vs 다른 방법 (펼치기)
가장 단순한 건 백분위수법 / 부트스트랩 분포의 2.5·97.5 분위수를 그대로 씀.치우침이 있으면 BCa(편향·가속 보정)나 기본 부트스트랩(basic)이 더 정확함.
표준오차만 쓸 거면 부트스트랩 통계량들의 표준편차가 곧 SE 추정치임.
전제는 공통 / 관측이 독립이고 표본이 모집단을 대표해야 함.
| 진짜 (미지) | 부트 대용 |
|---|---|
| 모분포 F | 경험분포 F̂표본이 만든 막대들 |
| F에서 n 뽑기 | 표본서 복원추출재표집이 추출을 흉내 |
| 표집분포 | 부트 분포쌓인 통계량들 |
| 참 CI | 백분위수 CI2.5·97.5 분위수 |
n이 클수록 F̂ → F / 부트 분포가 참 분포에 수렴
정리 — 컴퓨터로 미는 추론
부트스트랩은 분포 가정 없이, 가진 표본만으로 불확실성을 재는 방법임.
절차는 네 단계 / 원표본에서 복원추출 → 통계량 계산 → B번 반복해 쌓기 → 분위수로 구간 자르기.
평균이든 중앙값이든 공식이 없어도 같은 절차로 신뢰구간이 나옴.
핵심은 수식을 컴퓨터의 반복으로 갈아끼운 것임.
한때 손으로 못 풀던 추론을 재표집 수천 번으로 밀어버림.
다음 강은 A/B 테스트임.
두 그룹의 차이가 진짜인지 / 실험으로 가르는 법으로 넘어감.
Q. 부트스트랩은 신뢰구간을 어떻게 만드나?
정답은 복원추출 표본들의 통계량 분포에서 직접 자른다임.원표본에서 같은 크기로 복원추출을 B번 반복해 통계량을 B개 쌓음.
그 부트스트랩 분포를 정렬해 2.5%·97.5% 분위수를 읽으면 95% 신뢰구간임.
정규분포 같은 분포 가정도, 표집분포 공식도 쓰지 않음 / 재표집이 분포를 대신함.