11강 · 카이제곱 검정

오늘 끝나면

카이제곱 검정

✓카이제곱 검정의 핵심 문제를 한 문장으로 설명한다
✓오른쪽 실습에서 카이제곱이 어떻게 움직이는지 관찰한다
✓다음 강의와 이어지는 한계를 말할 수 있다

실습 미션

범주끼리 관계가 있나? — 관측 vs 기대 빈도 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.

성공 조건

□실습의 기본값을 먼저 관찰
□입력값이나 모드를 한 번 이상 바꿔 결과 비교
□왜 결과가 바뀌었는지 한 문장으로 설명

통계 · 11

카이제곱
검정

두 범주형 변수가 관계 있나? 평균이 아니라 빈도(개수)를 다룸.
관계가 없다면 나올 기대빈도와 실제 관측빈도를 비교함.

P.01통계 · 11

평균이 아니라 빈도를 본다

지금까지는 키·점수 같은 숫자의 평균을 비교했음.

근데 데이터가 숫자가 아니라 칸일 때가 있음.
성별(남/여) · 선호(커피/차) · 합격(O/X) 같은 범주임.

범주는 평균을 못 냄. 셀 수 있는 건 개수뿐임.
그래서 각 칸에 몇 명이 들어왔는지 빈도를 셈.

질문은 이거임. 두 범주가 서로 관계 있나?
성별에 따라 커피·차 선호가 갈리나, 아니면 무관하나?
이걸 따지는 게 카이제곱 검정임.

숫자 데이터 vs 범주 데이터

두 종류의 데이터

숫자 데이터 — 평균을 냄

172, 168, 180, 165 …

키·점수·무게 → t검정·ANOVA

범주 데이터 — 개수를 셈

남/여 · 커피/차 · O/X

빈도(칸의 사람 수) → 카이제곱

범주는 평균이 없음 → 셀 수 있는 건 빈도뿐

P.02통계 · 11

관계가 없다면 나올 기대빈도

핵심 아이디어. “관계가 없다면 어떻게 나와야 하나”를 먼저 계산함.

관계가 없다는 건 행 비율과 열 비율이 그냥 곱해진다는 뜻임.
그래서 기대빈도는 이렇게 나옴.

기대빈도 E = 행합 × 열합 ÷ 총합
전체에서 그 행의 비율, 그 열의 비율을 곱해 사람 수로 환산한 값임.

이 E가 “관계 없을 때의 가상 표”임.
실제 관측 O가 이 E와 얼마나 다른지가 다음 질문임.

관측 O vs 기대 E

관측 O — 실제

	커피	차
남	40	10
여	15	35

기대 E — 관계 없다면

	커피	차
남	27.5	22.5
여	27.5	22.5

E = 행합 × 열합 ÷ 총합 · 둘이 다를수록 χ² 큼

P.03통계 · 11

차이를 합친 게 카이제곱값

O와 E의 차이를 한 숫자로 합침. 그게 카이제곱값임.

그냥 O−E를 더하면 +와 −가 상쇄돼 0이 됨.
그래서 제곱해서 부호를 없앰.

또 칸마다 기대 크기가 다름. 100명 중 1 차이와 5명 중 1 차이는 무게가 다름.
그래서 E로 나눠 상대적 차이로 맞춤.

χ² = Σ (O − E)² / E
각 칸의 (관측−기대) 제곱을 기대로 나눈 값을 전부 더한 것임.
한 칸씩 기여도를 내서 합치면 끝임.

왜 제곱하고 E로 나누나 (더 자세히)

O−E를 그냥 더하면 행합·열합이 고정돼 항상 0임 → 정보가 사라짐.
제곱은 차이를 양수로 만들고 큰 차이에 더 큰 벌점을 줌.
E로 나누는 건 표준화임 — 기대가 큰 칸의 작은 흔들림이 과대평가되지 않게 함.
이 통계량은 귀무가설(독립) 아래서 근사적으로 자유도 (행−1)(열−1)의 카이제곱분포를 따름.

(O−E)² / E 를 다 더함

χ² = Σ (O − E)² / E

남·커피5.68

남·차6.94

여·커피5.68

여·차6.94

합 = χ²25.25

P.04통계 · 11

직접 돌려보는 분할표

오른쪽에서 직접 해봄. 네 칸의 관측빈도를 바꾸면 전부 다시 계산됨.

행·열 합으로 기대빈도 E가 자동으로 나옴.
각 칸의 기여도 (O−E)²/E도 같이 보여줌.
그걸 다 더한 게 맨 아래 χ² 값임.

“관계 있음” 프리셋은 대각선이 쏠려 있음 → χ²가 큼.
“관계 없음” 프리셋은 칸이 고름 → χ²가 거의 0임.

자유도 df=1 일 때 임계값은 3.841임.
χ²가 이보다 크면 관계 있음, 작으면 관계 없음으로 봄.

O 바꾸면 → E·기여도·χ² 즉시 갱신

2×2 분할표 · 직접 입력

관측빈도 O — 숫자를 바꿔 보셈

	커피	차	합
남성			50
여성			50
합	55	45	100

기대빈도 E = 행합 × 열합 ÷ 총합

남성·커피

O 40 · E 27.5

(O−E)²/E = 5.68

남성·차

O 10 · E 22.5

(O−E)²/E = 6.94

여성·커피

O 15 · E 27.5

(O−E)²/E = 5.68

여성·차

O 35 · E 22.5

(O−E)²/E = 6.94

카이제곱값 χ² = 기여도 합

25.25관계 있음

임계값 3.841 (df=1, α=0.05)과 비교함.
χ²가 임계값보다 큼 → 관측이 기대에서 멀다 → 두 변수는 관계 있음.

P.05통계 · 11

크면 관계 있음 · 두 종류

카이제곱값이 크다 = 관측이 기대에서 멀다 = 두 변수가 관계 있다.

작으면 관측이 기대와 비슷함 → 관계 없다고 봄.
얼마나 커야 “큰” 건지는 자유도와 임계값으로 정함.

카이제곱 검정은 두 종류임.
적합도 검정은 한 변수의 분포가 예상과 맞나 봄 (주사위가 공정한가).
독립성 검정은 두 변수가 서로 관계 있나 봄 (성별과 선호).

둘 다 원리는 같음. 관측 O를 기대 E와 비교해 χ²로 합치는 것임.

Q. 관측빈도가 기대빈도와 거의 같으면 카이제곱값은?

0에 가까움.
O−E가 거의 0이라 (O−E)²/E도 거의 0 → 다 더해도 작음.
즉 관측이 “관계 없을 때의 기대”와 일치한다는 뜻 → 두 변수는 관계가 없다고 봄.

χ² 클수록 기대에서 멀다

χ² 축 · 임계값 3.841 (df=1)

임계값 왼쪽이면 기대와 비슷 · 오른쪽이면 기대에서 멀다