오늘 끝나면
확률과 베이즈
- ✓확률과 베이즈의 핵심 문제를 한 문장으로 설명한다
- ✓오른쪽 실습에서 확률과이 어떻게 움직이는지 관찰한다
- ✓다음 강의와 이어지는 한계를 말할 수 있다
실습 미션
새 증거로 믿음을 갱신 — 양성인데 환자가 아닐 확률(역설) 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.
성공 조건
- □실습의 기본값을 먼저 관찰
- □입력값이나 모드를 한 번 이상 바꿔 결과 비교
- □왜 결과가 바뀌었는지 한 문장으로 설명
통계 · 06
확률과
베이즈
새 증거가 오면 믿음(확률)을 갱신함.
사전확률에 증거를 곱해 사후확률로 바꾸는 것임.
드문 병은 양성이어도 환자 아닐 수 있음 — 직접 돌려 봄.
조건부확률 = 조건 깔고 본 확률
확률은 보통 전체를 놓고 셈. 조건부확률은 한 사건이 일어났다는 조건 안에서만 셈.
기호로 P(A | B)— “B가 일어난 조건에서 A”임.
전체가 아니라 B라는 작은 세상으로 분모를 갈아끼우는 것임.
정의는 한 줄임.
P(A | B) = P(A 그리고 B) / P(B)
둘 다 일어난 비율을, B 일어난 비율로 나눈 것임.
그래서 같은 사건이라도 어떤 조건을 깔았느냐로 확률이 확 달라짐.
비 올 확률 30% vs 먹구름 낀 날 비 올 확률 — 조건이 분모를 바꿈.
전체가 아니라 B 안에서만 A를 셈
베이즈 = 사전 + 증거 → 사후
베이즈 정리는 조건부확률을 뒤집는 공식임. 가진 믿음에 새 증거를 곱해 갱신함.
한 줄 식임.
P(병 | +) = P(+ | 병) · P(병) / P(+)
말로 풀면 이렇게 됨.
P(병)은 검사 보기 전 믿음 / 사전확률(유병률).
P(+ | 병)은 증거의 힘 / 환자가 양성 뜰 확률(민감도).
P(병 | +)은 갱신된 믿음 / 사후확률.
분모 P(+)는 양성이 뜨는 전체 경로임 — 진짜양성 + 거짓양성.
핵심은 사후가 사전에서 출발한다는 것임. 사전이 작으면 사후도 쉽게 못 큼.
P(병|+) = P(+|병)·P(병) / P(+)
검사 전 믿음 = 유병률
환자가 양성 뜰 확률 = 민감도
진짜양성 + 거짓양성
갱신된 믿음
드문 병은 양성이어도 환자 아닐 수 있다
여기가 직관 깨지는 지점임. 검사 정확도가 99%여도 양성이 곧 환자는 아님.
오른쪽에서 직접 돌려 봄.
유병률을 1%로 두고 민감도·특이도 99%로 맞춰 보셈.
1000명을 네 칸으로 가르면 그림이 바로 보임.
진짜 환자는 10명, 그중 양성은 약 10명.
건강한 990명 중 1%가 거짓양성 → 약 10명이 또 양성.
양성 20명 중 진짜 환자는 절반뿐임.
유병률 슬라이더를 더 낮추면 거짓양성이 진짜양성을 압도함.
기저율(유병률)이 작을수록 양성예측도가 뚝 떨어지는 걸 손으로 느낄 수 있음.
이 병에 걸린 사람 비율
환자를 양성으로 잡는 비율
건강한 사람을 음성으로 보내는 비율
| 검사 + | 검사 − | |
|---|---|---|
| 병 O | 10 | 0 |
| 병 X | 10 | 980 |
양성 20명 중 진짜 환자는 10명뿐임.
유병률을 더 낮춰 보셈 — 거짓양성에 묻혀 확률이 뚝 떨어짐.
기저율을 무시하면 틀린다
왜 헷갈릴까? 사람은 검사 정확도(민감도·특이도)만 보고 유병률을 빼먹기 때문임.
이걸 기저율 무시(base rate neglect)라 부름.
“99% 정확한 검사”를 99% 환자 확률로 착각하는 실수임.
같은 검사라도 흔한 병이면 양성예측도가 높고, 드문 병이면 낮음.
검사 성능은 그대로인데 사전확률이 결과를 좌우하는 것임.
그래서 실무에선 양성이 나오면 보통 재검·정밀검사로 사후확률을 다시 갱신함.
한 번 갱신한 사후확률이 다음 검사의 사전확률이 됨 — 믿음은 계속 누적됨.
성능은 그대로 · 사전확률이 사후를 좌우함
정리 — 믿음은 증거로 갱신된다
확률은 고정된 진리가 아니라 증거에 따라 갱신되는 믿음의 정도임.
조건부확률은 조건을 깔고 본 확률 / 분모를 좁히는 것.
베이즈는 사전에 증거를 곱해 사후로 바꾸는 갱신 규칙.
기저율은 그 사전 자체 — 무시하면 사후가 통째로 틀림.
숫자가 무서우면 자연빈도로 바꿔 셈. 1000명 중 몇 명인지로 보면 역설이 풀림.
Q. 유병률 1%, 검사 99% 정확. 양성이면 환자일 확률이 99%인가?
아님. 건강한 사람이 워낙 많아 거짓양성이 많이 나옴.1000명 중 환자 10명(양성 약 10명) · 건강 990명 중 거짓양성 약 10명.
양성 20명 중 진짜 환자는 절반 → 실제론 약 50%임.
기저율(유병률)이 작아서 생기는 일임 — Lab에서 직접 확인 가능.
오늘의 사후가 내일의 사전이 됨 — 믿음은 누적됨