오늘 끝나면
ROC 곡선과 AUC
- ✓ROC 곡선과 AUC의 핵심 문제를 한 문장으로 설명한다
- ✓오른쪽 실습에서 ROC이 어떻게 움직이는지 관찰한다
- ✓다음 강의와 이어지는 한계를 말할 수 있다
실습 미션
임계값을 넘나들며 분류기를 통째로 평가 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.
성공 조건
- □실습의 기본값을 먼저 관찰
- □입력값이나 모드를 한 번 이상 바꿔 결과 비교
- □왜 결과가 바뀌었는지 한 문장으로 설명
통계 · 33
ROC 곡선과
AUC
임계값 하나에 묶이지 말고 / 전부 다 훑어 평가하는 법임.
임계값을 0→1로 쭉 바꾸며 (FPR, 재현율)을 찍으면 ROC 곡선임.
그 아래 면적이 AUC / 분류기 전체 능력을 한 수로 요약함.
임계값 하나로는 못 정함
확률을 내놓는 분류기는 마지막에 선을 하나 그음.
점수 ≥ t면 양성, 아니면 음성 / 이 t가 임계값임.
t를 낮추면 양성을 많이 잡음 → 재현율↑ / 대신 음성도 양성이라 우김 → 거짓양성↑.
t를 높이면 반대로 신중해짐 → 거짓양성↓ / 대신 놓치는 양성↑ → 재현율↓.
그래서 임계값 한 값만 보면 분류기의 한 면만 봄.
0.5에선 좋아 보여도 0.3에선 엉망일 수 있음.
평가하려면 t를 한 점에 묶지 말고 / 0부터 1까지 전부 훑어야 함.
그 훑은 자취가 다음 장의 ROC임.
| t | 재현율 | FPR |
|---|---|---|
| 2.2높게 — 신중 | 0.42 | 0.01 |
| 1.0중간 | 0.84 | 0.16 |
| -0.2낮게 — 너그러움 | 0.99 | 0.58 |
t를 내릴수록 재현율↑ FPR↑ 동반 / 한 값만 보면 한 면만 봄
ROC = 임계값을 넘나든 자취
임계값 t를 1쪽 높은 데서 0쪽 낮은 데로 쭉 내림. 매 t마다 두 수를 잼.
세로축은 재현율(TPR) = TP / (TP + FN) / 진짜 양성을 얼마나 잡았나.
가로축은 거짓양성률(FPR) = FP / (FP + TN) / 진짜 음성을 얼마나 잘못 울렸나.
t가 아주 높으면 아무도 양성이라 안 함 → (0, 0).
t가 아주 낮으면 다 양성이라 함 → (1, 1).
그 사이를 t가 움직이며 찍은 점들을 이으면 곡선임.
이게 ROC(Receiver Operating Characteristic)임.
한 점이 아니라 임계값 전부를 한 그림에 담은 것임.
t 높음 (0,0) → t 낮음 (1,1) / 점을 이으면 곡선임
왼쪽 위로 붙을수록 좋음
좋은 분류기의 ROC는 왼쪽 위 모서리 (0, 1)로 바짝 붙음.
(0, 1)은 거짓양성 0인데 진짜 양성은 다 잡은 자리 / 완벽임.
곡선이 거기 가까울수록 / 낮은 FPR에서 이미 높은 재현율을 냄.
대각선(왼아래→오른위)은 동전 던지기임.
잡은 양성 비율 = 잘못 울린 음성 비율 / 양·음을 못 가린 분류기임.
곡선이 대각선 아래로 처지면 찍기보다도 못함(뒤집으면 됨).
오른쪽에서 직접 해봄.
겹침을 떨어뜨리면 두 종이 갈리고 ROC가 좌상단으로 솟음 / 붙이면 대각선으로 내려앉음.
임계값 손잡이로 점을 곡선 위에서 굴려 보셈.
0.846
쓸 만함
검산 Φ(d/√2)=0.846
겹친 만큼 ROC가 대각선 쪽으로 내려앉음 — AUC는 임계값과 무관하게 분류기 전체 능력을 한 수로 요약함.
AUC = 곡선 아래 면적
곡선 하나를 수 하나로 요약하고 싶음. 그게 AUC — 곡선 아래 면적임.
ROC가 차지하는 면적을 0~1로 잼.
AUC = 1.0 완벽 / 0.5 무작위 찍기 / < 0.5 찍기보다 못함.
AUC엔 깔끔한 뜻이 하나 더 있음.
무작위로 양성 하나·음성 하나를 뽑았을 때 / 양성 점수가 음성보다 높을 확률임.
AUC = P(점수₊ > 점수₋) / 그래서 순위만 맞으면 됨.
핵심은 AUC가 임계값과 무관하다는 것임.
선을 어디 긋든 상관없이 / 분류기가 양·음을 줄 세우는 전체 능력을 한 수로 평가함.
AUC를 면적으로 어떻게 구하나 (펼치기)
ROC 점들을 FPR 증가 순서로 늘어놓고 / 이웃한 점 사이를 사다리꼴로 잘라 면적을 더함.AUC ≈ Σ (TPRᵢ + TPRᵢ₋₁)/2 · (FPRᵢ − FPRᵢ₋₁)
이게 사다리꼴 적분임 / 오른쪽 Lab의 AUC도 이렇게 계산함.
순위 정의와도 같음: 모든 (양성, 음성) 쌍 중 양성 점수가 더 높은 쌍의 비율 = Mann-Whitney U / (n₊·n₋).
0.97
잘 갈림
0.80
쓸 만함
0.50
찍기
면적 1에 가까울수록 좌상단에 붙음 / 0.5 = 대각선
정리 — 통째로 평가하는 한 수
ROC는 임계값을 0→1로 훑은 자취 / AUC는 그 아래 면적임.
왼쪽 위로 붙을수록 좋음 / 대각선(AUC 0.5)은 찍기.
AUC는 임계값 하나에 안 묶여 / 분류기의 줄 세우기 능력을 통째로 평가함.
주의도 있음. 양·음이 심하게 불균형하면 ROC는 너그러워 보일 수 있음.
그땐 정밀도-재현율 곡선(PR-AUC)이 더 솔직함 / 다음 강 흐름과 이어짐.
Q. AUC = 0.5는 무슨 뜻?
정답은 무작위 찍기 수준 — 분류 능력이 없음임.ROC가 대각선에 딱 붙은 상태 / 어떤 임계값을 골라도 재현율 = 거짓양성률임.
순위 관점으로도 양성 점수가 음성보다 높을 확률이 정확히 50% / 동전 던지기와 같음.
AUC가 0.5보다 작으면 찍기보다 못한 것이라 / 출력을 뒤집으면 0.5 위로 올라옴.
| 질문 | 답 |
|---|---|
| ROC란? | 임계값 자취t를 0→1, (FPR, TPR) |
| 좋은 곡선? | 좌상단 (0,1)낮은 FPR에 높은 재현율 |
| AUC=1 / 0.5 | 완벽 / 찍기곡선 아래 면적 |
| AUC 뜻 | 순위 확률P(점수₊ > 점수₋) |
| 강점 | 임계값 무관분류기 전체 능력 |