39강 · 부트스트랩

오늘 끝나면

부트스트랩

✓부트스트랩의 핵심 문제를 한 문장으로 설명한다
✓오른쪽 실습에서 부트스트랩이 어떻게 움직이는지 관찰한다
✓다음 강의와 이어지는 한계를 말할 수 있다

실습 미션

리샘플링으로 불확실성을 직접 재기 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.

성공 조건

□실습의 기본값을 먼저 관찰
□입력값이나 모드를 한 번 이상 바꿔 결과 비교
□왜 결과가 바뀌었는지 한 문장으로 설명

통계 · 39

부트
스트랩

분포 가정 없이 불확실성을 잼.
가진 표본에서 복원추출로 가짜 표본 수천 개를 만들어, 통계량의 흔들림을 눈으로 봄.
공식이 어려운 통계량에도 통함 / 컴퓨터의 힘으로 미는 추론임.

P.01통계 · 39

분포 가정 없이 불확실성을 잰다

신뢰구간을 구하려면 보통 표집분포를 알아야 함. 평균이면 정규근사, t분포 같은 공식이 있음.

근데 통계량이 중앙값·상관계수·90분위수·지니계수라면?
표집분포 공식이 없거나 끔찍하게 복잡함.
표본이 작거나 분포가 치우치면 정규근사도 못 믿음.

부트스트랩의 발상은 과감함.
모분포를 모르면, 가진 표본을 모분포 대신 씀.
표본이 모집단을 잘 닮았다면, 표본에서 다시 뽑는 일이 모집단에서 뽑는 일을 흉내 냄.

그래서 수식 대신 재표집으로 표집분포를 직접 만들어 버림.
분포 가정도, 어려운 공식도 필요 없음 / 컴퓨터가 대신 뽑아줌.

공식 경로 vs 부트스트랩 경로

신뢰구간 가는 두 길

공식 경로

표집분포를 안다고 가정

정규근사
t분포
CI = x̄ ± t·SE

중앙값·상관계수엔
공식이 막힘

부트스트랩 경로

표본에서 다시 뽑아 분포를 만듦

복원추출 ×B
통계량 쌓기
분위수로 자름

어떤 통계량이든
같은 절차

P.02통계 · 39

복원추출 = 표본에서 다시 뽑기

핵심 동작은 복원추출(resampling with replacement) 한 가지임.

원표본 크기가 n이면, 그 안에서 한 개를 뽑고 도로 넣고 또 뽑음.
이걸 n번 반복해 똑같이 크기 n인 새 표본 하나를 만듦 / 이게 부트스트랩 표본임.

되돌려 넣으니 같은 값이 여러 번 뽑힐 수 있고, 어떤 값은 한 번도 안 뽑힘.
그 우연한 중복·누락이 곧 “표본이 달랐다면”의 시나리오를 만듦.
평균적으로 원소의 약 63%만 한 번 이상 등장함 (나머지 37%는 빠짐).

부트스트랩 표본 하나마다 통계량을 하나 계산함.
이 재추출을 B = 1000~10000번 반복하면 통계량이 그만큼 쌓임.

원표본 → 같은 크기로 중복 허용 재추출

복원추출 한 번

원표본 n=6

375946

↓ 뽑고 도로 넣기 ×6

부트스트랩 표본

737597

7은 세 번 뽑힘 · 4와 6은 빠짐
평균 약 63%만 등장 / 그 우연이 흔들림을 만듦

P.03통계 · 39

쌓인 분포가 곧 신뢰구간

오른쪽에서 직접 돌려 봄. 1개씩, 또는 +500개씩 복원추출을 누적함.

한 번 뽑을 때마다 그 부트스트랩 표본의 통계량이 히스토그램에 한 칸 쌓임.
수백·수천 개가 쌓이면 봉우리가 또렷해짐 / 이게 통계량의 표집분포 근사임.

이 분포의 가운데 95%를 잘라내면 신뢰구간임.
정렬한 부트스트랩 통계량에서 2.5% 지점과 97.5% 지점을 읽음 / 백분위수법(percentile method).
그 양 끝이 95% 신뢰구간의 하한·상한임.

통계량 버튼을 평균에서 중앙값·표준편차로 바꿔 보셈.
공식이 다 다른 통계량인데도 절차는 똑같음 / 뽑고 · 재고 · 쌓고 · 자름.

복원추출을 반복하면 구간이 형성됨

부트스트랩 · 복원추출로 신뢰구간

잴 통계량

원표본 n=12관측 평균 = 5.98

4.15.24.865.57.25.94.38.16.459.3

평균의 부트스트랩 분포B = 0

95% 신뢰구간 (백분위수법)

아직 표본이 적음. 최소 20개 이상 쌓이면 2.5·97.5 분위수로 구간이 잡힘.

P.04통계 · 39

왜 통하나 — 표본이 모집단을 대신한다

부트스트랩이 마법 같지만 근거가 있음. 플러그인(plug-in) 원리임.

진짜 표집분포는 미지의 모분포 F에서 크기 n을 뽑아 통계량을 잰 분포임.
F를 모르니, 표본이 만든 경험분포 F̂를 대신 끼워 넣음(plug in).
F̂에서 크기 n을 뽑는 것 = 원표본에서 복원추출.

표본 크기 n이 커질수록 F̂가 F에 가까워짐.
그래서 부트스트랩 분포가 진짜 표집분포에 수렴함 / 큰 표본에서 잘 맞음.

한계도 분명함.
원표본이 편향됐으면 부트스트랩도 그 편향을 그대로 복제함 / 없는 정보를 만들어 내진 못함.
극단값·최댓값처럼 꼬리에 민감한 통계량엔 약함.

백분위수법 vs 다른 방법 (펼치기)

가장 단순한 건 백분위수법 / 부트스트랩 분포의 2.5·97.5 분위수를 그대로 씀.
치우침이 있으면 BCa(편향·가속 보정)나 기본 부트스트랩(basic)이 더 정확함.
표준오차만 쓸 거면 부트스트랩 통계량들의 표준편차가 곧 SE 추정치임.
전제는 공통 / 관측이 독립이고 표본이 모집단을 대표해야 함.

플러그인 원리

진짜 ↔ 부트스트랩 끼워넣기

진짜 (미지)	부트 대용
모분포 F	경험분포 F̂표본이 만든 막대들
F에서 n 뽑기	표본서 복원추출재표집이 추출을 흉내
표집분포	부트 분포쌓인 통계량들
참 CI	백분위수 CI2.5·97.5 분위수

n이 클수록 F̂ → F / 부트 분포가 참 분포에 수렴

P.05통계 · 39

정리 — 컴퓨터로 미는 추론

부트스트랩은 분포 가정 없이, 가진 표본만으로 불확실성을 재는 방법임.

절차는 네 단계 / 원표본에서 복원추출 → 통계량 계산 → B번 반복해 쌓기 → 분위수로 구간 자르기.
평균이든 중앙값이든 공식이 없어도 같은 절차로 신뢰구간이 나옴.

핵심은 수식을 컴퓨터의 반복으로 갈아끼운 것임.
한때 손으로 못 풀던 추론을 재표집 수천 번으로 밀어버림.

다음 강은 A/B 테스트임.
두 그룹의 차이가 진짜인지 / 실험으로 가르는 법으로 넘어감.

Q. 부트스트랩은 신뢰구간을 어떻게 만드나?

정답은 복원추출 표본들의 통계량 분포에서 직접 자른다임.
원표본에서 같은 크기로 복원추출을 B번 반복해 통계량을 B개 쌓음.
그 부트스트랩 분포를 정렬해 2.5%·97.5% 분위수를 읽으면 95% 신뢰구간임.
정규분포 같은 분포 가정도, 표집분포 공식도 쓰지 않음 / 재표집이 분포를 대신함.

부트스트랩 4단계

복원추출원표본에서 크기 n 재추출

통계량 계산그 표본의 평균·중앙값 등

B번 반복1000~10000개 쌓기

분위수 자르기2.5·97.5 → 95% CI