오늘 끝나면
다중비교 보정
- ✓다중비교 보정의 핵심 문제를 한 문장으로 설명한다
- ✓오른쪽 실습에서 다중비교이 어떻게 움직이는지 관찰한다
- ✓다음 강의와 이어지는 한계를 말할 수 있다
실습 미션
많이 검정하면 거짓양성도 늘어남(본페로니) 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.
성공 조건
- □실습의 기본값을 먼저 관찰
- □입력값이나 모드를 한 번 이상 바꿔 결과 비교
- □왜 결과가 바뀌었는지 한 문장으로 설명
통계 · 38
다중비교
보정
검정을 여러 번 하면 우연히 유의한 게 튀어나옴.
20번 돌리면 효과가 없어도 평균 1번은 p<0.05.
보정 안 하면 가짜 발견이 쌓임.
검정 한 번의 5%가 반복되면
유의수준 α=0.05는 효과가 없어도 우연히 유의가 뜰 확률 5%를 허용한다는 뜻임.
검정 한 번이면 5%는 받아들일 만함. 100번 중 5번 헛스윙.
문제는 검정을 한 번만 하지 않는다는 것임.
유전자 2만 개, 광고 문구 50종, 부분집단 10개.
한 연구에서 수십·수백 번 검정을 돌림.
그 많은 검정 중 일부는 진짜 효과 없이도 5% 운으로 유의가 뜸.
귀무가설이 참이면 p-value는 0~1 사이 균등분포임.
그래서 p<0.05가 나올 확률이 딱 5%임 / 우연이 끼어드는 틈.
20칸 중 1칸 = 5% / 효과가 없어도 이 칸에 떨어지면 “유의”로 오인
검정이 늘면 거짓양성이 폭증
검정을 m번 하면 “적어도 한 번 우연히 유의”할 확률이 빠르게 커짐.
한 검정이 헛스윙 안 할 확률은 0.95임.
m번 모두 안 터질 확률은 0.95^m.
적어도 하나 터질 확률은 1 − 0.95^m / 이게 family-wise 에러율(FWER).
m=1이면 5%. m=14면 51% / 이미 동전 던지기보다 나쁨.
m=20이면 64%. m=100이면 99.4%.
즉 검정을 많이 할수록 가짜 양성 하나쯤은 거의 확정으로 나옴.
개별 p<0.05만 보고 “발견”을 외치면 대부분 우연을 줍는 것임.
검정 수 m이 커지면 1로 수렴 / 가짜 양성은 사실상 확정
문턱을 α/m로 — 본페로니
가장 단순한 보정은 본페로니임. 문턱 α를 검정 수 m으로 나눔.
각 검정은 p < α/m일 때만 유의로 인정함.
검정 20개·α=0.05면 문턱이 0.0025로 내려감 / 어지간한 우연은 못 넘음.
이러면 family-wise 에러율(적어도 하나 거짓양성 확률)이 α 아래로 눌림.
오른쪽에서 m을 늘려 보고, 본페로니를 켜 거짓양성이 억제되는 걸 봐 보셈.
대신 문턱이 너무 빡세짐 / 진짜 효과도 놓치기 쉬워짐(검정력 하락).
본페로니는 보수적임 / 검정이 아주 많으면 거의 아무것도 못 건짐.
문턱 = α = 0.0500
0
64.2%
보정 없으면 m=20에서 적어도 하나 우연히 유의할 확률이 64.2%. m이 클수록 1에 수렴.
FDR — 발견 중 가짜 비율을 관리
유의가 수백 개 나오는 분야(유전체 등)에선 본페로니가 너무 가혹함. 대안이 FDR임.
FWER은 “가짜를 단 하나도 안 내겠다”는 목표임 / 너무 엄격.
FDR(거짓발견율)은 “유의로 부른 것 중 가짜 비율을 q 이하로”라는 목표임 / 더 너그러움.
벤자미니-호흐베르그(BH) 절차로 구함.
p값을 작은 순으로 줄세움 / k번째 p값을 (k/m)·q와 비교함.
이 선 아래 들어온 것 중 가장 큰 순위까지를 전부 유의로 채택함.
본페로니는 거짓양성을 0으로 누르려다 진짜도 버림.
BH는 약간의 가짜(예: 5%)를 허용하고 진짜 발견을 더 많이 건짐 / 탐색 연구에 적합.
본페로니 vs BH 문턱 비교 (펼치기)
본페로니는 모든 검정에 같은 문턱 α/m을 씀 / 가장 엄격.BH는 순위 k마다 문턱이 (k/m)·q로 커짐 / 작은 p값일수록 엄격, 뒤로 갈수록 완화.
그래서 BH가 본페로니보다 더 많은 발견을 통과시킴 / 대신 통과분의 일부는 가짜일 수 있음(평균 q 비율).
본페로니 문턱은 수평으로 낮음 / BH 문턱은 순위 따라 올라가 더 많은 발견을 통과
정리 — 많이 검정했으면 보정
한 연구에서 검정을 여러 번 했으면 개별 p<0.05만으로 결론 내면 안 됨.
가짜를 단 하나도 못 참으면(확증·임상) FWER 관리 → 본페로니.
발견을 많이 건지되 가짜 비율만 관리하면(탐색·유전체) FDR 관리 → BH.
핵심은 검정 수만큼 운의 기회도 늘어난다는 것임.
보정은 그 늘어난 운을 문턱으로 되갚는 일임.
다음 강은 부트스트랩임.
공식 없이 데이터를 재표집해 신뢰구간·표준오차를 직접 만드는 법으로 넘어감.
Q. 효과가 전혀 없는데 검정을 20번 하면 유의 결과는 평균 몇 번?
정답은 평균 1번임.귀무가설이 참이면 각 검정이 우연히 유의할 확률이 α=0.05.
20번 × 0.05 = 1 / 기대 거짓양성 1개.
그래서 여러 번 검정했으면 본페로니(α/m)나 BH(FDR)로 보정해야 가짜 발견을 막음.
| 상황 | 방법 |
|---|---|
| 가짜 1개도 못 참음 | FWER본페로니 α/m · 확증·임상 |
| 발견 중 가짜 비율만 | FDRBH (k/m)q · 탐색·유전체 |
| 보정 안 하면? | 가짜 발견m 클수록 거의 확정 |