5강 · 중심극한정리

오늘 끝나면

중심극한정리

✓중심극한정리의 핵심 문제를 한 문장으로 설명한다
✓오른쪽 실습에서 중심극한정리이 어떻게 움직이는지 관찰한다
✓다음 강의와 이어지는 한계를 말할 수 있다

실습 미션

아무 분포라도 표본평균은 정규분포로 모임 — 통계가 작동하는 이유 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.

성공 조건

□실습의 기본값을 먼저 관찰
□입력값이나 모드를 한 번 이상 바꿔 결과 비교
□왜 결과가 바뀌었는지 한 문장으로 설명

통계 · 05

중심
극한정리

원래 분포가 뭐든 상관없음.
표본을 뽑아 그 평균들을 모으면 종모양 정규분포가 됨.
이게 평균 비교·검정·신뢰구간을 굴리는 엔진임.

P.01통계 · 05

개별 값의 분포는 제각각이다

현실 데이터의 모양은 정해진 게 없음.

소득은 한쪽으로 길게 치우침.
주사위 눈은 1~6이 고르게 나옴(균등).
어떤 데이터는 봉우리가 둘임(쌍봉).

개별 값 하나하나가 어떤 모양으로 나오는지를 원분포라 부름.
원분포는 종모양일 필요가 전혀 없음.
치우치든 평평하든 울퉁불퉁하든 상관없음.

그래서 데이터를 그냥 모아 그리면 종모양이 안 나오는 게 보통임.
여기서 끝나면 정규분포 가정은 못 쓰는 것처럼 보임.

균등 · 치우친 · 쌍봉 — 원분포는 천차만별

원분포 — 모양은 정해진 게 없음

균등

고르게

치우친

한쪽으로

쌍봉

봉우리 둘

전부 종모양이 아님 — 그래도 괜찮음

P.02통계 · 05

개별 값이 아니라 '평균'을 모은다

핵심 전환은 무엇을 모으느냐임.

개별 값을 모으는 게 아님.
한 번에 n개를 뽑아 그 평균 1개를 구함.
그 평균 뽑기를 수없이 반복함.

예: n=5면 값 5개 뽑아 평균 1개.
또 5개 뽑아 평균 1개. 계속 반복.
그렇게 쌓인 표본평균들의 분포를 보는 것임.

원분포가 아니라 표본평균의 분포 — 이걸 표본분포라 함.
여기서 마법이 일어남.

값 n개 뽑기 → 평균 1개 → 그걸 또 뽑기

n개 뽑기 → 평균 1개 → 반복

1회차

0.20.90.40.60.3

→0.48

2회차

0.70.10.80.50.4

→0.50

3회차

0.30.60.20.90.5

→0.50

오른쪽 평균값들만 따로 모아 분포를 그림

P.03통계 · 05

표본평균을 모으면 정규분포로 모인다

오른쪽에서 직접 돌려보셈. 원분포를 치우친·쌍봉으로 바꿔도 결과는 같음.

중심극한정리(Central Limit Theorem)는 이렇게 말함.
원분포가 무엇이든, n이 충분히 크면 표본평균의 분포는 정규분포에 가까워짐.

버튼으로 표본평균을 쌓아 보셈.
원분포가 아무리 이상해도 평균분포는 가운데로 모인 종모양이 됨.
n을 키우면 더 깔끔한 종모양이 됨.

평균들의 중심은 모평균 그대로임.
단, 평균들의 표준편차는 σ/√n로 줄어듦.
그래서 n이 클수록 폭이 좁고 뾰족해짐.

왜 √n으로 줄어드는지 (한 줄 수식)

독립인 값 n개를 평균내면 분산이 1/n로 줄어듦.
Var(X̄) = σ² / n
표준편차는 그 제곱근이라 SD(X̄) = σ / √n 임.
이 σ/√n을 표준오차(standard error)라 부름.

원분포 골라 자동 1000번 — 종모양으로 쌓임

중심극한정리 · 직접 돌려보셈

원분포 — 개별 값이 나오는 모양

개별 값 하나하나는 이 모양으로 나옴.

표본크기 n — 한 번에 몇 개 뽑아 평균낼지n = 5

표본평균들의 분포0회 누적

아래 버튼으로 표본평균을 뽑아 쌓아 보셈.

평균들의 평균

–

평균들의 표준편차

–

P.04통계 · 05

표본이 클수록 더 깔끔한 종모양

표본크기 n은 두 가지를 바꿈.

모양을 더 정규에 가깝게 만듦.
폭을 σ/√n만큼 좁게 만듦.

n=1이면 평균이 곧 개별 값 → 원분포 그대로임(정규 아님).
n=5만 돼도 꽤 종모양에 가까워짐.
n=30이면 웬만한 원분포에서 충분히 정규로 봄(경험칙).

폭이 √n으로 줄어든다는 건 정밀도가 √n으로 좋아진단 뜻임.
표본을 4배로 늘리면 평균의 흔들림은 2배만 줄어듦.

n이 커지면 폭이 좁아짐 (σ/√n)

n이 커지면 폭이 좁아짐 — σ/√n

n = 1

σ/√1

n = 5

σ/√5

n = 30

σ/√30

중심은 그대로 · 폭만 √n으로 좁아짐

P.05통계 · 05

그래서 t검정·신뢰구간이 작동한다

이게 통계 추론의 엔진임.

평균 비교, t검정, 신뢰구간은 전부 표본평균의 분포를 정규로 가정함.
개별 데이터가 정규가 아니어도 됨.
우리가 다루는 건 평균이고, 평균의 분포는 정규로 모이기 때문임.

신뢰구간 X̄ ± z · (σ/√n)의 ±폭이 바로 표준오차에서 옴.
n이 클수록 구간이 좁아짐 = 추정이 정밀해짐.

정리하면 — 원분포는 자유롭게, 추론은 정규로.
그 다리를 놓아주는 게 중심극한정리임.

Q. 원래 데이터가 정규분포가 아니어도 평균 비교 검정을 쓸 수 있는 이유는?

중심극한정리 덕분임.
n이 충분하면 표본평균의 분포가 정규분포에 가까워짐.
검정·신뢰구간이 보는 건 개별 값이 아니라 평균이라, 정규 기반 방법이 그대로 통함.

원분포 무관 → 정규 기반 추론이 통함

CLT가 떠받치는 것들

원분포	아무 모양이나 OK
표본평균	정규분포로 수렴
표준오차	σ / √n
신뢰구간	X̄ ± z · (σ/√n)
t검정	평균 비교가 통함

원분포는 자유롭게 · 추론은 정규로