36강 · 비모수 검정

오늘 끝나면

비모수 검정

✓비모수 검정의 핵심 문제를 한 문장으로 설명한다
✓오른쪽 실습에서 비모수이 어떻게 움직이는지 관찰한다
✓다음 강의와 이어지는 한계를 말할 수 있다

실습 미션

정규성 없이 — 순위로 검정하기(맨-휘트니 등) 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.

성공 조건

□실습의 기본값을 먼저 관찰
□입력값이나 모드를 한 번 이상 바꿔 결과 비교
□왜 결과가 바뀌었는지 한 문장으로 설명

통계 · 36

비모수
검정

t검정·ANOVA는 정규성·등분산을 가정함.
가정이 깨지면 값 대신 순위로 검정함.
작은 표본·치우친 데이터·순위 자료에 강건함.

P.01통계 · 36

모수 검정은 가정 위에 선다

t검정과 ANOVA는 그냥 평균을 비교하는 게 아님. 숨은 전제 위에서 굴러감.

전제는 셋임.
데이터가 정규분포에 가까움 / 집단끼리 분산이 비슷함(등분산) / 표본이 서로 독립임.

이 전제가 맞을 때 평균·표준편차가 분포를 거의 다 설명함.
그래서 모수 검정은 평균과 SD라는 모수로 차이를 잼.

전제가 맞으면 검정력이 가장 셈 / 같은 차이를 더 작은 표본으로도 잡아냄.
문제는 전제가 깨질 때임.

t검정·ANOVA가 깔고 가는 전제

모수 검정이 깔고 가는 전제

정규성데이터가 종 모양에 가까움

등분산집단끼리 퍼짐이 비슷함

독립성관측이 서로 영향 안 줌

셋 다 맞을 때 평균·SD가 분포를 다 설명함

P.02통계 · 36

가정이 깨지면 평균이 거짓말함

현실 데이터는 자주 가정을 어김. 작은 표본 · 한쪽으로 치우친 분포 · 멀리 튄 이상치.

평균은 이상치 한 점에 끌려감 / 멀리 튄 값 하나가 평균을 통째로 옮김.
표준편차도 같이 부풀어 t값을 흐림 / p값이 들쭉날쭉해짐.

소득·대기시간·반응시간처럼 오른쪽 꼬리가 긴 자료가 대표적임.
5명·8명짜리 작은 표본은 정규성 자체를 확인할 수도 없음.

애초에 순위 자료면 평균이 의미조차 없음.
만족도 1~5점, 등수 같은 건 “3과 4의 간격”이 일정하다는 보장이 없음.
이럴 때 비모수 검정으로 갈아탐.

치우친 분포 · 이상치 한 점

오른쪽으로 치우친 분포

꼬리·이상치가 평균을 끌어감 / 중앙값·순위는 안 흔들림

P.03통계 · 36

값을 버리고 순위로 검정한다

비모수의 핵심 한 수: 값 자체를 안 봄. 전체를 작은 것부터 줄 세워 순위만 씀.

두 집단 값을 한데 섞어 정렬함 / 가장 작은 게 1등, 다음이 2등.
이상치가 100이든 1000이든 똑같이 “꼴등” 한 칸일 뿐임.
그래서 멀리 튄 점에 휘둘리지 않음 = 강건함.

같은 값이 겹치면 그 자리 순위들의 평균을 나눠 가짐(동순위 처리).

분포 모양을 가정하지 않으니 가정이 적음.
대신 값의 크기 정보를 버리므로, 가정이 다 맞는 상황에선 모수 검정보다 검정력이 살짝 낮음.
그게 강건함의 대가임.

원자료 → 작은 것부터 1, 2, 3 …

값 → 순위로 바꾸기

집단	값	순위
A	2	1
B	3	2
A	5	3
B	6	4
A	8	5
B	9	6
B	40이상치	7

40이 아무리 커도 순위는 7로 한 칸일 뿐 / 그래서 이상치에 강건함

P.04통계 · 36

맨-휘트니 · 윌콕슨 · 크러스컬-월리스

비모수에도 모수 검정 하나하나에 대응하는 짝이 있음. 상황만 맞춰 고르면 됨.

두 독립 집단 비교는 맨-휘트니 U 검정 / 독립 두 표본 t검정의 순위판임.
전·후처럼 짝지은 두 측정은 윌콕슨 부호순위 검정 / 대응 표본 t검정의 짝임.

세 집단 이상이면 크러스컬-월리스 검정 / 일원배치 ANOVA의 순위판임.
두 변수의 단조 관계는 스피어만 순위상관으로 봄.

오른쪽에서 직접 비교해 봄.
치우침을 키우면 t검정 p는 이상치에 휘둘리고, 순위 기반 맨-휘트니는 버팀.

모수 검정과 한 줄씩 짝지음

모수 ↔ 비모수 짝

모수	비모수
독립 2표본 t검정	맨-휘트니 U두 독립 집단
대응 2표본 t검정	윌콕슨 부호순위짝지은 전·후
일원배치 ANOVA	크러스컬-월리스세 집단 이상
피어슨 상관	스피어만 순위상관단조 관계

P.05통계 · 36

정리 — 가정이 의심되면 순위로

모수 검정은 정규성·등분산 위에서 가장 셈. 전제가 맞으면 그걸 씀.

작은 표본 · 치우침 · 이상치 · 순위 자료면 비모수로 감.
값 대신 순위를 써서 분포 가정 없이, 이상치에 강건하게 차이를 잼.

짝은 외워두면 됨 / 맨-휘트니(독립 2집단) · 윌콕슨(짝지은 2측정) · 크러스컬-월리스(3집단↑).
다음 강은 검정력과 표본 크기임 / 차이를 놓치지 않으려면 표본이 얼마나 필요한가로 넘어감.

Q. 비모수 검정을 써야 하는 상황은?

정답은 정규성 가정이 안 맞거나, 순위·소표본 데이터일 때임.
분포가 한쪽으로 치우쳤거나 이상치가 있거나 표본이 너무 작아 정규성을 못 믿을 때.
또는 만족도·등수처럼 값이 아니라 순위로 주어진 자료일 때.
이럴 땐 값 대신 순위를 쓰는 맨-휘트니·윌콕슨·크러스컬-월리스로 감.

모수 vs 비모수, 한눈에

모수 vs 비모수 · 직접 비교

두 집단 A · B의 값 분포

파란 끝점 하나가 멀리 튐 = 치우침·이상치

B 집단 오른쪽 치우침0%

0 = 깨끗한 분포 · 100 = 꼬리가 극단으로

모수 · t검정

평균·SD 기반

t = 2.78

p=0.005

차이 유의

비모수 · 맨-휘트니

순위 기반

U = 10

p=0.021

차이 유의

깨끗할 땐 둘 다 비슷하게 차이를 잡음.