32강 · 정밀도·재현율·F1

오늘 끝나면

정밀도·재현율·F1

✓정밀도·재현율·F1의 핵심 문제를 한 문장으로 설명한다
✓오른쪽 실습에서 정밀도이 어떻게 움직이는지 관찰한다
✓다음 강의와 이어지는 한계를 말할 수 있다

실습 미션

정확도의 함정 — 불균형엔 다른 지표를 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.

성공 조건

□실습의 기본값을 먼저 관찰
□입력값이나 모드를 한 번 이상 바꿔 결과 비교
□왜 결과가 바뀌었는지 한 문장으로 설명

통계 · 32

정밀도·재현율
·F1

정확도 하나로는 부족함. 양성을 어떻게 맞히고 어떻게 놓치나가 중요함.
정밀도는 거짓경보를 덜 내나, 재현율은 진짜를 덜 놓치나임.
둘은 상충함. F1은 둘을 한 숫자로 묶은 조화평균임.

P.01통계 · 32

정밀도 = 양성이라 한 것 중 진짜

모델이 “이건 양성”이라 한 것들만 모음. 그 안에 진짜가 얼마나 들었나가 정밀도임.

정밀도 = TP / (TP + FP)임.
TP는 양성이라 했는데 진짜 양성 / FP는 양성이라 했는데 사실 음성(거짓경보).

정밀도가 높으면 양성 도장을 함부로 안 찍는다는 뜻임.
스팸 필터가 정밀도 높으면 / 스팸함에 들어간 건 거의 진짜 스팸임.
멀쩡한 메일이 스팸함에 잘못 들어가는 게 FP / 정밀도를 깎음.

핵심 질문은 “양성이라 한 것 중 얼마나 맞혔나” / 거짓경보가 적나임.

예측 양성 박스를 들여다봄

정밀도 = TP / (TP + FP)

모델이 “양성”이라 한 것 전부

TP 진짜 양성 8

FP 거짓경보 3

정밀도 = 8 / (8 + 3) = 73%

P.02통계 · 32

재현율 = 진짜 양성 중 잡은 것

이번엔 진짜 양성인 것들만 모음. 그중 모델이 몇 개나 잡아냈나가 재현율임.

재현율 = TP / (TP + FN)임.
FN은 사실 양성인데 음성이라 한 것 / 놓침임.

재현율이 높으면 진짜를 거의 안 놓친다는 뜻임.
암 검진이 재현율 높으면 / 실제 환자를 거의 다 걸러냄.
환자를 정상이라 보내버리는 게 FN / 재현율을 깎음.

정밀도가 보는 분모는 “예측 양성”, 재현율이 보는 분모는 “실제 양성”임.
분자는 둘 다 TP로 같지만, 무엇으로 나누나가 다름.

실제 양성 박스를 들여다봄

재현율 = TP / (TP + FN)

실제로 양성인 것 전부

TP 잡음 8

FN 놓침 4

재현율 = 8 / (8 + 4) = 67%

P.03통계 · 32

둘은 상충한다

정밀도와 재현율을 동시에 끝까지 올리긴 어려움. 보통 한쪽을 올리면 다른 쪽이 내려감.

분류기는 점수를 매기고 임계값 이상이면 양성이라 함.
임계값을 올리면 / 확신 있는 것만 양성이라 함 → 거짓경보 줆 → 정밀도 ↑.
대신 애매한 진짜 양성을 놓침 → FN 늚 → 재현율 ↓.

임계값을 내리면 반대임 / 양성을 많이 던져 재현율 ↑, 거짓경보 늘어 정밀도 ↓.
오른쪽에서 임계값을 끌어 보셈. 한쪽이 오르면 다른 쪽이 내려감.

모두 양성이라 하면 재현율은 100%지만 정밀도는 바닥임 / 그래서 한 숫자만 보면 속음.

임계값을 옮기면 한쪽이 손해

정밀도-재현율 트레이드오프 · 임계값 조절

점 하나 = 한 명 / 위=실제 양성(빨강), 아래=실제 음성(회색)

임계값50

TP 진짜 양성

FN 놓침

FP 거짓경보

TN 진짜 음성

정밀도

78.9%

TP/(TP+FP)

재현율

93.8%

TP/(TP+FN)

85.7%

조화평균

F1 곡선 — 임계값 전 구간

임계값 ↑ → 양성 예측 인색해짐 / 정밀도 ↑, 재현율 ↓.
F1 최고는 임계값 50 근처 (85.7%). 둘이 균형 잡힌 지점임.

P.04통계 · 32

F1 = 둘의 조화평균

정밀도와 재현율을 한 숫자로 묶고 싶음. 그게 F1임.

F1 = 2·P·R / (P + R) / 정밀도 P와 재현율 R의 조화평균임.

왜 산술평균이 아니라 조화평균인가.
조화평균은 작은 쪽에 끌려감 / 한쪽이 낮으면 F1도 같이 낮아짐.
정밀도 100%·재현율 2%면 산술평균은 51%지만 F1은 약 4%임 / 한쪽이 망하면 봐주지 않음.

그래서 F1이 높으려면 둘 다 어느 정도 높아야 함 / 균형을 강제하는 지표임.

Fβ — 한쪽에 가중치 주기 (펼치기)

F1은 정밀도와 재현율을 똑같이 침.
상황에 따라 재현율을 더 중히 보고 싶으면 Fβ를 씀.
Fβ = (1+β²)·P·R / (β²·P + R).
β > 1이면 재현율 쪽에 무게 / β < 1이면 정밀도 쪽에 무게. β=1이 곧 F1임.

산술평균이 아니라 조화평균인 이유

한쪽이 망하면 F1도 망함

정밀도 P100%

재현율 R2%

산술평균51%

F1 (조화평균)4%

P=100·R=2 / 산술평균은 51%로 봐주지만 F1은 ~4% / 낮은 쪽에 끌려감

P.05통계 · 32

상황이 무엇을 중히 보는지 정함

정답은 “무조건 F1”이 아님. 틀림의 대가가 어느 쪽이 큰지를 봐야 함.

놓침(FN)이 치명적이면 재현율을 올림.
암 검진·사기 탐지·중대 결함 검출 / 진짜를 놓치면 사람·돈이 크게 다침.

거짓경보(FP)가 비싸면 정밀도를 올림.
스팸 필터·추천·자동 차단 / 멀쩡한 걸 잘못 막으면 신뢰가 깨짐.

균형이 필요하면 F1을 봄.
한쪽으로 더 기울이고 싶으면 임계값을 조정하거나 Fβ를 씀 / 지표 선택이 곧 의사결정임.

Q. 암 진단 모델에서 더 중요한 지표는?

정답은 재현율임.
암 환자를 정상이라 보내버리는 놓침(FN)은 생명을 위협함 / 진짜 환자를 최대한 다 잡아야 함.
재현율 = TP/(TP+FN)을 올리면 놓침이 줆 / 거짓경보(FP)는 추가 검사로 걸러낼 수 있어 상대적으로 덜 치명적임.

놓침이 비싼가, 거짓경보가 비싼가

상황별 어떤 지표를 보나

상황	지표
암 검진놓침이 치명적	재현율 ↑FN을 줄임
사기 탐지놓침이 치명적	재현율 ↑FN을 줄임
스팸 필터거짓경보가 비쌈	정밀도 ↑FP를 줄임
균형 필요둘 다 중요	F1조화평균 최대