오늘 끝나면
비모수 검정
- ✓비모수 검정의 핵심 문제를 한 문장으로 설명한다
- ✓오른쪽 실습에서 비모수이 어떻게 움직이는지 관찰한다
- ✓다음 강의와 이어지는 한계를 말할 수 있다
실습 미션
정규성 없이 — 순위로 검정하기(맨-휘트니 등) 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.
성공 조건
- □실습의 기본값을 먼저 관찰
- □입력값이나 모드를 한 번 이상 바꿔 결과 비교
- □왜 결과가 바뀌었는지 한 문장으로 설명
통계 · 36
비모수
검정
t검정·ANOVA는 정규성·등분산을 가정함.
가정이 깨지면 값 대신 순위로 검정함.
작은 표본·치우친 데이터·순위 자료에 강건함.
모수 검정은 가정 위에 선다
t검정과 ANOVA는 그냥 평균을 비교하는 게 아님. 숨은 전제 위에서 굴러감.
전제는 셋임.
데이터가 정규분포에 가까움 / 집단끼리 분산이 비슷함(등분산) / 표본이 서로 독립임.
이 전제가 맞을 때 평균·표준편차가 분포를 거의 다 설명함.
그래서 모수 검정은 평균과 SD라는 모수로 차이를 잼.
전제가 맞으면 검정력이 가장 셈 / 같은 차이를 더 작은 표본으로도 잡아냄.
문제는 전제가 깨질 때임.
가정이 깨지면 평균이 거짓말함
현실 데이터는 자주 가정을 어김. 작은 표본 · 한쪽으로 치우친 분포 · 멀리 튄 이상치.
평균은 이상치 한 점에 끌려감 / 멀리 튄 값 하나가 평균을 통째로 옮김.
표준편차도 같이 부풀어 t값을 흐림 / p값이 들쭉날쭉해짐.
소득·대기시간·반응시간처럼 오른쪽 꼬리가 긴 자료가 대표적임.
5명·8명짜리 작은 표본은 정규성 자체를 확인할 수도 없음.
애초에 순위 자료면 평균이 의미조차 없음.
만족도 1~5점, 등수 같은 건 “3과 4의 간격”이 일정하다는 보장이 없음.
이럴 때 비모수 검정으로 갈아탐.
꼬리·이상치가 평균을 끌어감 / 중앙값·순위는 안 흔들림
값을 버리고 순위로 검정한다
비모수의 핵심 한 수: 값 자체를 안 봄. 전체를 작은 것부터 줄 세워 순위만 씀.
두 집단 값을 한데 섞어 정렬함 / 가장 작은 게 1등, 다음이 2등.
이상치가 100이든 1000이든 똑같이 “꼴등” 한 칸일 뿐임.
그래서 멀리 튄 점에 휘둘리지 않음 = 강건함.
같은 값이 겹치면 그 자리 순위들의 평균을 나눠 가짐(동순위 처리).
분포 모양을 가정하지 않으니 가정이 적음.
대신 값의 크기 정보를 버리므로, 가정이 다 맞는 상황에선 모수 검정보다 검정력이 살짝 낮음.
그게 강건함의 대가임.
| 집단 | 값 | 순위 |
|---|---|---|
| A | 2 | 1 |
| B | 3 | 2 |
| A | 5 | 3 |
| B | 6 | 4 |
| A | 8 | 5 |
| B | 9 | 6 |
| B | 40이상치 | 7 |
40이 아무리 커도 순위는 7로 한 칸일 뿐 / 그래서 이상치에 강건함
맨-휘트니 · 윌콕슨 · 크러스컬-월리스
비모수에도 모수 검정 하나하나에 대응하는 짝이 있음. 상황만 맞춰 고르면 됨.
두 독립 집단 비교는 맨-휘트니 U 검정 / 독립 두 표본 t검정의 순위판임.
전·후처럼 짝지은 두 측정은 윌콕슨 부호순위 검정 / 대응 표본 t검정의 짝임.
세 집단 이상이면 크러스컬-월리스 검정 / 일원배치 ANOVA의 순위판임.
두 변수의 단조 관계는 스피어만 순위상관으로 봄.
오른쪽에서 직접 비교해 봄.
치우침을 키우면 t검정 p는 이상치에 휘둘리고, 순위 기반 맨-휘트니는 버팀.
| 모수 | 비모수 |
|---|---|
| 독립 2표본 t검정 | 맨-휘트니 U두 독립 집단 |
| 대응 2표본 t검정 | 윌콕슨 부호순위짝지은 전·후 |
| 일원배치 ANOVA | 크러스컬-월리스세 집단 이상 |
| 피어슨 상관 | 스피어만 순위상관단조 관계 |
정리 — 가정이 의심되면 순위로
모수 검정은 정규성·등분산 위에서 가장 셈. 전제가 맞으면 그걸 씀.
작은 표본 · 치우침 · 이상치 · 순위 자료면 비모수로 감.
값 대신 순위를 써서 분포 가정 없이, 이상치에 강건하게 차이를 잼.
짝은 외워두면 됨 / 맨-휘트니(독립 2집단) · 윌콕슨(짝지은 2측정) · 크러스컬-월리스(3집단↑).
다음 강은 검정력과 표본 크기임 / 차이를 놓치지 않으려면 표본이 얼마나 필요한가로 넘어감.
Q. 비모수 검정을 써야 하는 상황은?
정답은 정규성 가정이 안 맞거나, 순위·소표본 데이터일 때임.분포가 한쪽으로 치우쳤거나 이상치가 있거나 표본이 너무 작아 정규성을 못 믿을 때.
또는 만족도·등수처럼 값이 아니라 순위로 주어진 자료일 때.
이럴 땐 값 대신 순위를 쓰는 맨-휘트니·윌콕슨·크러스컬-월리스로 감.
파란 끝점 하나가 멀리 튐 = 치우침·이상치
0 = 깨끗한 분포 · 100 = 꼬리가 극단으로