38강 · 다중비교 보정

오늘 끝나면

다중비교 보정

✓다중비교 보정의 핵심 문제를 한 문장으로 설명한다
✓오른쪽 실습에서 다중비교이 어떻게 움직이는지 관찰한다
✓다음 강의와 이어지는 한계를 말할 수 있다

실습 미션

많이 검정하면 거짓양성도 늘어남(본페로니) 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.

성공 조건

□실습의 기본값을 먼저 관찰
□입력값이나 모드를 한 번 이상 바꿔 결과 비교
□왜 결과가 바뀌었는지 한 문장으로 설명

통계 · 38

다중비교
보정

검정을 여러 번 하면 우연히 유의한 게 튀어나옴.
20번 돌리면 효과가 없어도 평균 1번은 p<0.05.
보정 안 하면 가짜 발견이 쌓임.

P.01통계 · 38

검정 한 번의 5%가 반복되면

유의수준 α=0.05는 효과가 없어도 우연히 유의가 뜰 확률 5%를 허용한다는 뜻임.

검정 한 번이면 5%는 받아들일 만함. 100번 중 5번 헛스윙.
문제는 검정을 한 번만 하지 않는다는 것임.

유전자 2만 개, 광고 문구 50종, 부분집단 10개.
한 연구에서 수십·수백 번 검정을 돌림.
그 많은 검정 중 일부는 진짜 효과 없이도 5% 운으로 유의가 뜸.

귀무가설이 참이면 p-value는 0~1 사이 균등분포임.
그래서 p<0.05가 나올 확률이 딱 5%임 / 우연이 끼어드는 틈.

α = 우연히 유의할 확률

귀무가설 참 → p는 균등분포

p-value 한 줄 (0 → 1) · 칠해진 칸이 p<0.05

00.051

20칸 중 1칸 = 5% / 효과가 없어도 이 칸에 떨어지면 “유의”로 오인

P.02통계 · 38

검정이 늘면 거짓양성이 폭증

검정을 m번 하면 “적어도 한 번 우연히 유의”할 확률이 빠르게 커짐.

한 검정이 헛스윙 안 할 확률은 0.95임.
m번 모두 안 터질 확률은 0.95^m.
적어도 하나 터질 확률은 1 − 0.95^m / 이게 family-wise 에러율(FWER).

m=1이면 5%. m=14면 51% / 이미 동전 던지기보다 나쁨.
m=20이면 64%. m=100이면 99.4%.

즉 검정을 많이 할수록 가짜 양성 하나쯤은 거의 확정으로 나옴.
개별 p<0.05만 보고 “발견”을 외치면 대부분 우연을 줍는 것임.

≥1개 거짓양성 확률 = 1 − 0.95^m

거짓양성 ≥1 확률 vs 검정 수

검정 수 m이 커지면 1로 수렴 / 가짜 양성은 사실상 확정

P.03통계 · 38

문턱을 α/m로 — 본페로니

가장 단순한 보정은 본페로니임. 문턱 α를 검정 수 m으로 나눔.

각 검정은 p < α/m일 때만 유의로 인정함.
검정 20개·α=0.05면 문턱이 0.0025로 내려감 / 어지간한 우연은 못 넘음.

이러면 family-wise 에러율(적어도 하나 거짓양성 확률)이 α 아래로 눌림.
오른쪽에서 m을 늘려 보고, 본페로니를 켜 거짓양성이 억제되는 걸 봐 보셈.

대신 문턱이 너무 빡세짐 / 진짜 효과도 놓치기 쉬워짐(검정력 하락).
본페로니는 보수적임 / 검정이 아주 많으면 거의 아무것도 못 건짐.

검정 수로 나눠 더 엄격하게

다중비교 시뮬 · 진짜 효과는 0

검정 20개 · 빨간 칸 = 거짓양성 (전부 우연)

문턱 = α = 0.0500

검정 수 m20

1100

거짓양성 개수

≥1개 터질 확률

64.2%

보정 없으면 m=20에서 적어도 하나 우연히 유의할 확률이 64.2%. m이 클수록 1에 수렴.

P.04통계 · 38

FDR — 발견 중 가짜 비율을 관리

유의가 수백 개 나오는 분야(유전체 등)에선 본페로니가 너무 가혹함. 대안이 FDR임.

FWER은 “가짜를 단 하나도 안 내겠다”는 목표임 / 너무 엄격.
FDR(거짓발견율)은 “유의로 부른 것 중 가짜 비율을 q 이하로”라는 목표임 / 더 너그러움.

벤자미니-호흐베르그(BH) 절차로 구함.
p값을 작은 순으로 줄세움 / k번째 p값을 (k/m)·q와 비교함.
이 선 아래 들어온 것 중 가장 큰 순위까지를 전부 유의로 채택함.

본페로니는 거짓양성을 0으로 누르려다 진짜도 버림.
BH는 약간의 가짜(예: 5%)를 허용하고 진짜 발견을 더 많이 건짐 / 탐색 연구에 적합.

본페로니 vs BH 문턱 비교 (펼치기)

본페로니는 모든 검정에 같은 문턱 α/m을 씀 / 가장 엄격.
BH는 순위 k마다 문턱이 (k/m)·q로 커짐 / 작은 p값일수록 엄격, 뒤로 갈수록 완화.
그래서 BH가 본페로니보다 더 많은 발견을 통과시킴 / 대신 통과분의 일부는 가짜일 수 있음(평균 q 비율).

벤자미니-호흐베르그 절차

정렬된 p값 · 두 문턱

본페로니 문턱은 수평으로 낮음 / BH 문턱은 순위 따라 올라가 더 많은 발견을 통과

P.05통계 · 38

정리 — 많이 검정했으면 보정

한 연구에서 검정을 여러 번 했으면 개별 p<0.05만으로 결론 내면 안 됨.

가짜를 단 하나도 못 참으면(확증·임상) FWER 관리 → 본페로니.
발견을 많이 건지되 가짜 비율만 관리하면(탐색·유전체) FDR 관리 → BH.

핵심은 검정 수만큼 운의 기회도 늘어난다는 것임.
보정은 그 늘어난 운을 문턱으로 되갚는 일임.

다음 강은 부트스트랩임.
공식 없이 데이터를 재표집해 신뢰구간·표준오차를 직접 만드는 법으로 넘어감.

Q. 효과가 전혀 없는데 검정을 20번 하면 유의 결과는 평균 몇 번?

정답은 평균 1번임.
귀무가설이 참이면 각 검정이 우연히 유의할 확률이 α=0.05.
20번 × 0.05 = 1 / 기대 거짓양성 1개.
그래서 여러 번 검정했으면 본페로니(α/m)나 BH(FDR)로 보정해야 가짜 발견을 막음.

언제 무엇을 쓰나

언제 무엇을

상황	방법
가짜 1개도 못 참음	FWER본페로니 α/m · 확증·임상
발견 중 가짜 비율만	FDRBH (k/m)q · 탐색·유전체
보정 안 하면?	가짜 발견m 클수록 거의 확정