오늘 끝나면
카이제곱 검정
- ✓카이제곱 검정의 핵심 문제를 한 문장으로 설명한다
- ✓오른쪽 실습에서 카이제곱이 어떻게 움직이는지 관찰한다
- ✓다음 강의와 이어지는 한계를 말할 수 있다
실습 미션
범주끼리 관계가 있나? — 관측 vs 기대 빈도 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.
성공 조건
- □실습의 기본값을 먼저 관찰
- □입력값이나 모드를 한 번 이상 바꿔 결과 비교
- □왜 결과가 바뀌었는지 한 문장으로 설명
통계 · 11
카이제곱
검정
두 범주형 변수가 관계 있나? 평균이 아니라 빈도(개수)를 다룸.
관계가 없다면 나올 기대빈도와 실제 관측빈도를 비교함.
평균이 아니라 빈도를 본다
지금까지는 키·점수 같은 숫자의 평균을 비교했음.
근데 데이터가 숫자가 아니라 칸일 때가 있음.
성별(남/여) · 선호(커피/차) · 합격(O/X) 같은 범주임.
범주는 평균을 못 냄. 셀 수 있는 건 개수뿐임.
그래서 각 칸에 몇 명이 들어왔는지 빈도를 셈.
질문은 이거임. 두 범주가 서로 관계 있나?
성별에 따라 커피·차 선호가 갈리나, 아니면 무관하나?
이걸 따지는 게 카이제곱 검정임.
172, 168, 180, 165 …
키·점수·무게 → t검정·ANOVA
남/여 · 커피/차 · O/X
빈도(칸의 사람 수) → 카이제곱
관계가 없다면 나올 기대빈도
핵심 아이디어. “관계가 없다면 어떻게 나와야 하나”를 먼저 계산함.
관계가 없다는 건 행 비율과 열 비율이 그냥 곱해진다는 뜻임.
그래서 기대빈도는 이렇게 나옴.
기대빈도 E = 행합 × 열합 ÷ 총합
전체에서 그 행의 비율, 그 열의 비율을 곱해 사람 수로 환산한 값임.
이 E가 “관계 없을 때의 가상 표”임.
실제 관측 O가 이 E와 얼마나 다른지가 다음 질문임.
| 커피 | 차 | |
| 남 | 40 | 10 |
| 여 | 15 | 35 |
| 커피 | 차 | |
| 남 | 27.5 | 22.5 |
| 여 | 27.5 | 22.5 |
차이를 합친 게 카이제곱값
O와 E의 차이를 한 숫자로 합침. 그게 카이제곱값임.
그냥 O−E를 더하면 +와 −가 상쇄돼 0이 됨.
그래서 제곱해서 부호를 없앰.
또 칸마다 기대 크기가 다름. 100명 중 1 차이와 5명 중 1 차이는 무게가 다름.
그래서 E로 나눠 상대적 차이로 맞춤.
χ² = Σ (O − E)² / E
각 칸의 (관측−기대) 제곱을 기대로 나눈 값을 전부 더한 것임.
한 칸씩 기여도를 내서 합치면 끝임.
왜 제곱하고 E로 나누나 (더 자세히)
O−E를 그냥 더하면 행합·열합이 고정돼 항상 0임 → 정보가 사라짐.제곱은 차이를 양수로 만들고 큰 차이에 더 큰 벌점을 줌.
E로 나누는 건 표준화임 — 기대가 큰 칸의 작은 흔들림이 과대평가되지 않게 함.
이 통계량은 귀무가설(독립) 아래서 근사적으로 자유도 (행−1)(열−1)의 카이제곱분포를 따름.
직접 돌려보는 분할표
오른쪽에서 직접 해봄. 네 칸의 관측빈도를 바꾸면 전부 다시 계산됨.
행·열 합으로 기대빈도 E가 자동으로 나옴.
각 칸의 기여도 (O−E)²/E도 같이 보여줌.
그걸 다 더한 게 맨 아래 χ² 값임.
“관계 있음” 프리셋은 대각선이 쏠려 있음 → χ²가 큼.
“관계 없음” 프리셋은 칸이 고름 → χ²가 거의 0임.
자유도 df=1 일 때 임계값은 3.841임.
χ²가 이보다 크면 관계 있음, 작으면 관계 없음으로 봄.
| 커피 | 차 | 합 | |
|---|---|---|---|
| 남성 | 50 | ||
| 여성 | 50 | ||
| 합 | 55 | 45 | 100 |
임계값 3.841 (df=1, α=0.05)과 비교함.
χ²가 임계값보다 큼 → 관측이 기대에서 멀다 → 두 변수는 관계 있음.
크면 관계 있음 · 두 종류
카이제곱값이 크다 = 관측이 기대에서 멀다 = 두 변수가 관계 있다.
작으면 관측이 기대와 비슷함 → 관계 없다고 봄.
얼마나 커야 “큰” 건지는 자유도와 임계값으로 정함.
카이제곱 검정은 두 종류임.
적합도 검정은 한 변수의 분포가 예상과 맞나 봄 (주사위가 공정한가).
독립성 검정은 두 변수가 서로 관계 있나 봄 (성별과 선호).
둘 다 원리는 같음. 관측 O를 기대 E와 비교해 χ²로 합치는 것임.
Q. 관측빈도가 기대빈도와 거의 같으면 카이제곱값은?
0에 가까움.O−E가 거의 0이라 (O−E)²/E도 거의 0 → 다 더해도 작음.
즉 관측이 “관계 없을 때의 기대”와 일치한다는 뜻 → 두 변수는 관계가 없다고 봄.
임계값 왼쪽이면 기대와 비슷 · 오른쪽이면 기대에서 멀다