오늘 끝나면
정밀도·재현율·F1
- ✓정밀도·재현율·F1의 핵심 문제를 한 문장으로 설명한다
- ✓오른쪽 실습에서 정밀도이 어떻게 움직이는지 관찰한다
- ✓다음 강의와 이어지는 한계를 말할 수 있다
실습 미션
정확도의 함정 — 불균형엔 다른 지표를 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.
성공 조건
- □실습의 기본값을 먼저 관찰
- □입력값이나 모드를 한 번 이상 바꿔 결과 비교
- □왜 결과가 바뀌었는지 한 문장으로 설명
통계 · 32
정밀도·재현율
·F1
정확도 하나로는 부족함. 양성을 어떻게 맞히고 어떻게 놓치나가 중요함.
정밀도는 거짓경보를 덜 내나, 재현율은 진짜를 덜 놓치나임.
둘은 상충함. F1은 둘을 한 숫자로 묶은 조화평균임.
정밀도 = 양성이라 한 것 중 진짜
모델이 “이건 양성”이라 한 것들만 모음. 그 안에 진짜가 얼마나 들었나가 정밀도임.
정밀도 = TP / (TP + FP)임.
TP는 양성이라 했는데 진짜 양성 / FP는 양성이라 했는데 사실 음성(거짓경보).
정밀도가 높으면 양성 도장을 함부로 안 찍는다는 뜻임.
스팸 필터가 정밀도 높으면 / 스팸함에 들어간 건 거의 진짜 스팸임.
멀쩡한 메일이 스팸함에 잘못 들어가는 게 FP / 정밀도를 깎음.
핵심 질문은 “양성이라 한 것 중 얼마나 맞혔나” / 거짓경보가 적나임.
정밀도 = 8 / (8 + 3) = 73%
재현율 = 진짜 양성 중 잡은 것
이번엔 진짜 양성인 것들만 모음. 그중 모델이 몇 개나 잡아냈나가 재현율임.
재현율 = TP / (TP + FN)임.
FN은 사실 양성인데 음성이라 한 것 / 놓침임.
재현율이 높으면 진짜를 거의 안 놓친다는 뜻임.
암 검진이 재현율 높으면 / 실제 환자를 거의 다 걸러냄.
환자를 정상이라 보내버리는 게 FN / 재현율을 깎음.
정밀도가 보는 분모는 “예측 양성”, 재현율이 보는 분모는 “실제 양성”임.
분자는 둘 다 TP로 같지만, 무엇으로 나누나가 다름.
재현율 = 8 / (8 + 4) = 67%
둘은 상충한다
정밀도와 재현율을 동시에 끝까지 올리긴 어려움. 보통 한쪽을 올리면 다른 쪽이 내려감.
분류기는 점수를 매기고 임계값 이상이면 양성이라 함.
임계값을 올리면 / 확신 있는 것만 양성이라 함 → 거짓경보 줆 → 정밀도 ↑.
대신 애매한 진짜 양성을 놓침 → FN 늚 → 재현율 ↓.
임계값을 내리면 반대임 / 양성을 많이 던져 재현율 ↑, 거짓경보 늘어 정밀도 ↓.
오른쪽에서 임계값을 끌어 보셈. 한쪽이 오르면 다른 쪽이 내려감.
모두 양성이라 하면 재현율은 100%지만 정밀도는 바닥임 / 그래서 한 숫자만 보면 속음.
15
1
4
12
78.9%
TP/(TP+FP)
93.8%
TP/(TP+FN)
85.7%
조화평균
임계값 ↑ → 양성 예측 인색해짐 / 정밀도 ↑, 재현율 ↓.
F1 최고는 임계값 50 근처 (85.7%). 둘이 균형 잡힌 지점임.
F1 = 둘의 조화평균
정밀도와 재현율을 한 숫자로 묶고 싶음. 그게 F1임.
F1 = 2·P·R / (P + R) / 정밀도 P와 재현율 R의 조화평균임.
왜 산술평균이 아니라 조화평균인가.
조화평균은 작은 쪽에 끌려감 / 한쪽이 낮으면 F1도 같이 낮아짐.
정밀도 100%·재현율 2%면 산술평균은 51%지만 F1은 약 4%임 / 한쪽이 망하면 봐주지 않음.
그래서 F1이 높으려면 둘 다 어느 정도 높아야 함 / 균형을 강제하는 지표임.
Fβ — 한쪽에 가중치 주기 (펼치기)
F1은 정밀도와 재현율을 똑같이 침.상황에 따라 재현율을 더 중히 보고 싶으면 Fβ를 씀.
Fβ = (1+β²)·P·R / (β²·P + R).
β > 1이면 재현율 쪽에 무게 / β < 1이면 정밀도 쪽에 무게. β=1이 곧 F1임.
P=100·R=2 / 산술평균은 51%로 봐주지만 F1은 ~4% / 낮은 쪽에 끌려감
상황이 무엇을 중히 보는지 정함
정답은 “무조건 F1”이 아님. 틀림의 대가가 어느 쪽이 큰지를 봐야 함.
놓침(FN)이 치명적이면 재현율을 올림.
암 검진·사기 탐지·중대 결함 검출 / 진짜를 놓치면 사람·돈이 크게 다침.
거짓경보(FP)가 비싸면 정밀도를 올림.
스팸 필터·추천·자동 차단 / 멀쩡한 걸 잘못 막으면 신뢰가 깨짐.
균형이 필요하면 F1을 봄.
한쪽으로 더 기울이고 싶으면 임계값을 조정하거나 Fβ를 씀 / 지표 선택이 곧 의사결정임.
Q. 암 진단 모델에서 더 중요한 지표는?
정답은 재현율임.암 환자를 정상이라 보내버리는 놓침(FN)은 생명을 위협함 / 진짜 환자를 최대한 다 잡아야 함.
재현율 = TP/(TP+FN)을 올리면 놓침이 줆 / 거짓경보(FP)는 추가 검사로 걸러낼 수 있어 상대적으로 덜 치명적임.
| 상황 | 지표 |
|---|---|
| 암 검진놓침이 치명적 | 재현율 ↑FN을 줄임 |
| 사기 탐지놓침이 치명적 | 재현율 ↑FN을 줄임 |
| 스팸 필터거짓경보가 비쌈 | 정밀도 ↑FP를 줄임 |
| 균형 필요둘 다 중요 | F1조화평균 최대 |