스킬캠퍼스
6강 · 확률과 베이즈
강의

오늘 끝나면

확률과 베이즈

  • 확률과 베이즈의 핵심 문제를 한 문장으로 설명한다
  • 오른쪽 실습에서 확률과이 어떻게 움직이는지 관찰한다
  • 다음 강의와 이어지는 한계를 말할 수 있다

실습 미션

새 증거로 믿음을 갱신 — 양성인데 환자가 아닐 확률(역설) 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.

성공 조건

  • 실습의 기본값을 먼저 관찰
  • 입력값이나 모드를 한 번 이상 바꿔 결과 비교
  • 왜 결과가 바뀌었는지 한 문장으로 설명

통계 · 06

확률과
베이즈

새 증거가 오면 믿음(확률)을 갱신함.
사전확률에 증거를 곱해 사후확률로 바꾸는 것임.
드문 병은 양성이어도 환자 아닐 수 있음 — 직접 돌려 봄.

P.01통계 · 06

조건부확률 = 조건 깔고 본 확률

확률은 보통 전체를 놓고 셈. 조건부확률은 한 사건이 일어났다는 조건 안에서만 셈.

기호로 P(A | B)— “B가 일어난 조건에서 A”임.
전체가 아니라 B라는 작은 세상으로 분모를 갈아끼우는 것임.

정의는 한 줄임.
P(A | B) = P(A 그리고 B) / P(B)
둘 다 일어난 비율을, B 일어난 비율로 나눈 것임.

그래서 같은 사건이라도 어떤 조건을 깔았느냐로 확률이 확 달라짐.
비 올 확률 30% vs 먹구름 낀 날 비 올 확률 — 조건이 분모를 바꿈.

전체 → 조건 안으로 좁히기
P(A | B) — 분모를 B로 갈아끼움
BA
파란 부분 = A 그리고 B (분자)
B 원 전체 = P(B) (새 분모)

전체가 아니라 B 안에서만 A를 셈

P.02통계 · 06

베이즈 = 사전 + 증거 → 사후

베이즈 정리는 조건부확률을 뒤집는 공식임. 가진 믿음에 새 증거를 곱해 갱신함.

한 줄 식임.
P(병 | +) = P(+ | 병) · P(병) / P(+)

말로 풀면 이렇게 됨.
P(병)은 검사 보기 전 믿음 / 사전확률(유병률).
P(+ | 병)은 증거의 힘 / 환자가 양성 뜰 확률(민감도).
P(병 | +)은 갱신된 믿음 / 사후확률.

분모 P(+)는 양성이 뜨는 전체 경로임 — 진짜양성 + 거짓양성.
핵심은 사후가 사전에서 출발한다는 것임. 사전이 작으면 사후도 쉽게 못 큼.

믿음을 갱신하는 한 줄
베이즈 — 네 조각

P(병|+) = P(+|병)·P(병) / P(+)

P(병)사전확률

검사 전 믿음 = 유병률

P(+ | 병)증거의 힘

환자가 양성 뜰 확률 = 민감도

P(+)전체 양성

진짜양성 + 거짓양성

P(병 | +)사후확률

갱신된 믿음

P.03통계 · 06

드문 병은 양성이어도 환자 아닐 수 있다

여기가 직관 깨지는 지점임. 검사 정확도가 99%여도 양성이 곧 환자는 아님.

오른쪽에서 직접 돌려 봄.
유병률을 1%로 두고 민감도·특이도 99%로 맞춰 보셈.
1000명을 네 칸으로 가르면 그림이 바로 보임.

진짜 환자는 10명, 그중 양성은 약 10명.
건강한 990명 중 1%가 거짓양성 → 약 10명이 또 양성.
양성 20명 중 진짜 환자는 절반뿐임.

유병률 슬라이더를 더 낮추면 거짓양성이 진짜양성을 압도함.
기저율(유병률)이 작을수록 양성예측도가 뚝 떨어지는 걸 손으로 느낄 수 있음.

유병률·민감도·특이도 직접 돌려 봄
질병검사 역설 · 1000명 자연빈도
유병률 (사전확률)1.0%

이 병에 걸린 사람 비율

민감도99.0%

환자를 양성으로 잡는 비율

특이도99.0%

건강한 사람을 음성으로 보내는 비율

1000명 — 양성이면 채워 칠함
진짜양성 10거짓양성 10음성 980
병 × 검사 — 네 칸
검사 +검사 −
병 O100
병 X10980
양성인데 진짜 환자일 확률 (사후확률)
P(병 | +) =50.0%

양성 20명 중 진짜 환자는 10명뿐임.
유병률을 더 낮춰 보셈 — 거짓양성에 묻혀 확률이 뚝 떨어짐.

P.04통계 · 06

기저율을 무시하면 틀린다

왜 헷갈릴까? 사람은 검사 정확도(민감도·특이도)만 보고 유병률을 빼먹기 때문임.

이걸 기저율 무시(base rate neglect)라 부름.
“99% 정확한 검사”를 99% 환자 확률로 착각하는 실수임.

같은 검사라도 흔한 병이면 양성예측도가 높고, 드문 병이면 낮음.
검사 성능은 그대로인데 사전확률이 결과를 좌우하는 것임.

그래서 실무에선 양성이 나오면 보통 재검·정밀검사로 사후확률을 다시 갱신함.
한 번 갱신한 사후확률이 다음 검사의 사전확률이 됨 — 믿음은 계속 누적됨.

같은 검사 · 유병률만 바꿈
검사 99% 고정 · 유병률만 바꿈
유병률 0.1%PPV 9%
유병률 1%PPV 50%
유병률 10%PPV 92%
유병률 50%PPV 99%

성능은 그대로 · 사전확률이 사후를 좌우함

P.05통계 · 06

정리 — 믿음은 증거로 갱신된다

확률은 고정된 진리가 아니라 증거에 따라 갱신되는 믿음의 정도임.

조건부확률은 조건을 깔고 본 확률 / 분모를 좁히는 것.
베이즈는 사전에 증거를 곱해 사후로 바꾸는 갱신 규칙.
기저율은 그 사전 자체 — 무시하면 사후가 통째로 틀림.

숫자가 무서우면 자연빈도로 바꿔 셈. 1000명 중 몇 명인지로 보면 역설이 풀림.

Q. 유병률 1%, 검사 99% 정확. 양성이면 환자일 확률이 99%인가?아님. 건강한 사람이 워낙 많아 거짓양성이 많이 나옴.
1000명 중 환자 10명(양성 약 10명) · 건강 990명 중 거짓양성 약 10명.
양성 20명 중 진짜 환자는 절반 → 실제론 약 50%임.
기저율(유병률)이 작아서 생기는 일임 — Lab에서 직접 확인 가능.
사전 → 증거 → 사후 한 장 요약
믿음 갱신의 한 가지 모양
사전P(병)
검사 전 믿음
증거검사 +
새 데이터 들어옴
사후P(병|+)
갱신된 믿음

오늘의 사후가 내일의 사전이 됨 — 믿음은 누적됨

3줄 요약

  1. 1새 증거로 믿음을 갱신 — 양성인데 환자가 아닐 확률(역설)
  2. 2확률과 베이즈은 분포 → 표본 → 검정 → 회귀 → 모델 선택 흐름 안의 한 칸이다.
  3. 3개념을 외우는 것보다 입력을 바꾸면 무엇이 달라지는지 보는 것이 우선이다.

완료 전 점검

복습 카드

확률과

새 증거로 믿음을 갱신 — 양성인데 환자가 아닐 확률(역설)

분포

데이터가 어떤 모양으로 퍼져 있는지 나타낸 것

표본

전체를 알기 위해 뽑아 본 일부 데이터